О сайтах и не о сайтах

Теперь и в tg!

tg

Переехал с твиттера на t.me/tulvit_blog, если что.

Фильтры Яндекса. Теория.

В дорвеестроительстве, в отличие от создания СДЛ, важно изначально понимать, через какие фильтры придется пройти сайту. Как ни как лицензия на поиск нарушается (пункт 3.5, «Поисковый спам»), да и на лицо полная зависимость от индексации и позиций. Если при создании белого проекта цели вебмастера (создать хороший сайт) и ПС (отранжировать хорошие сайты выше) так или иначе в большинстве случаев совпадают, то при создании дорвеев начинается явное противостояние. Цель дорвейщика — создать механизм, позволяющий максимально автоматизировано получать поисковый трафик, цель поисковой системы — не допустить этого.

Сразу хочу отметить, что «окологуманитарный» подход, частенько принятый в «белом» SEO, здесь не совсем подходит. Почему «окологуманитарный»? Да по другому и не может быть. Белые проекты — долгоживущие. Развивать и раскручивать их надо на перспективу, а не подстраиваясь под текущие алгоритмы. Отсюда и «надо повышать траст», «обмениваться ссылками», «покупать статьи на тематичных ресурсах» и т.д. Плюс большая растянутость во времени, не позволяющая точно оценить влияние того или иного фактора. К примеру, есть у меня сайт, который я двигаю в топ по запросу миллионнику (по вордстату). Бюджет не изменялся уже несколько месяцев, однако позиции подросли с 100+ до первой тридцатки, скоро и в топ выбьюсь. С чем это связано? Статьи стали действовать, ссылки отстоялись, какие-то из доноров стали более трастовыми, естественные ссылки сказались, просто сайт стал более «выдержанным»? Точно не ответить, скорее всего все вместе. И далее я буду развивать сайт не делая упор на что-то одно, а именно «гуманитарным» комплексным методом — ссылок прикупить, статей разместить, контента добавить, внутреннею перелинковку улучшить и т.д. Т.е. упор идет не на воздействие на какой-то конкретный алгоритм, а на развитие сайта неким эталонным образом. Хотя, конечно, и технических моментов хватает, от составления анкоров до подбора доноров. К слову о донорах, зачем искать хорошие площадки в сапе, когда их можно найти в Яндексе, а потом уже проверить, какие из них продают ссылки и сформировать свой white list.

С дорвеями все немного по другому. Надо обойти фильтры, которые существуют здесь и сейчас. Надо постараться создать такую технологию, разработка противодействия которой либо теоретически трудно реализуема, либо повлечет большие накладные расходы, существенно превышающие потенциальные убытки, либо если практическая реализация будет иметь слишком большую погрешность. За примерами далеко ходить не надо — фильтр АГС17. Ну были ГС, ну продавали с них ссылки и что с того? Но когда это стало настолько массовым, что новые индексируемые сайты были на 99% ГС для влияния на ранжирование, когда выбор доноров для покупки ссылок был просто заоблачным практически по любым тематикам, когда стали появляться даже специальные CMS для ГС — надо было что-то делать. И сделали. Причем, на мой взгляд, весьма успешно. Да, была погрешность и улетали многие белые сайты. Да, было потрачено время на разработку этого фильтра. Да, пришлось выделить мощности, чтобы проверить этим фильтром все или большинство имеющихся сайтов в индексе. Но однозначно игра стоила свеч — массовая индустрия создания ГС под сапу фактически умерла.

Именно поэтому стоит пользоваться своими приватными наработками. Предположим, есть какая-то технология, например хитрый клоакинг по ip-шникам или рефереру. Этой технологией пользуется один-два-три человека. Сколько они создадут дорвеев? Сто, тысячу, вряд ли больше. Стоит ли этому искать противодействие? Может быть и да, но всегда есть другие, более насущные проблемы. А теперь представим, что эта технология выходит в паблик, становится опцией по умолчанию в доргенах и т.д. Что получим в итоге? Ежедневное создание 100500 доров и захламление выдачи. Как результат — разработка фильтра и его внедрение. А это со стороны ПС лишние траты, как денег так и мощностей, но в данном случае оправданные.

В общем и целом надо изначально осознавать, что работать придется с алгоритмами, т.е. программами. Дорвеи (да и все сайты) проверяет не человек, а именно программа, с четкой логикой и прочими атрибутами. Это, думаю, понятно всем, но почему-то все об этом забывают. Добавить «рюшечек», чтобы дор смотрелся чуток СДЛ-нее — пожалуйста, а ответить для чего это делается и в обходе какого фильтра поможет, затрудняемся.

Лирическое отступление, получившееся немного больше запланированного, закончилось. Дальше будет собственно про фильтры Яндекса.

Как уже выше говорилось, для успешного дорвеестроительства необходимо представлять себе те фильтры, через которые придется пройти. Документации на них, естественно, нет. Поэтому приходится заниматься так называемой «обратной разработкой», когда по внешним проявлением строится модель, приближенная к оригиналу.

На основании своего небольшого опыта, ряда проведенных экспериментов, анализа выдачи, прочтения большого количества блогов и форумов я построил для себя некую теорию фильтров Яндекса. Скорее всего она где-то не совсем верна, где-то есть упущения, но с чего-то начинать надо. Как минимум эта самая теория дает мне две вещи — дальнейший вектор развития, не хаотичный, а четко структурированный, где я знаю что, зачем и для чего, а также ответы если не на все вопросы, так на большинство.

Сразу оговорюсь, что все ниже приведенные рассуждения касаются новозареганных рушек, наверняка на фри хосты существуют дополнительные фильтры, как и на «неблагонадежные зоны», например .info, не говоря уже о .cn и прочих.

Далее отталкиваться буду от следующих концепций:

 

  • Апдейты в Яндексе происходят ежедневно, если не чаще. Раз в несколько дней результаты последнего (?) апдейта выкладывают в паблик. Это и называется в понимании большинства «апом Яндекса». Придумал это не я (хотя догадаться было бы не сложно), это где-то говорили/писали представители Яндекса, точную ссылку на источник, к сожалению, привести не могу, не помню.
  • Фильтров несколько. Структура прохождения сайтов через фильтр — очередь (FIFO, First Input — First Output). Каждый сайт проходит через все фильтры последовательно. Прямой взаимосвязи между индексом, алгоритмами ранжирования и фильтрами нет. Т.е. апдейты это один процесс, прохождение сайтов через фильтры совершенно другой.

С первым утверждением все понятно, поэтому перейдем к более подробному рассмотрению второго.

Структура прохождения всех сайтов через конкретный фильтр — очередь. Попробую пояснить наиболее понятно. Есть сто новых еще непроиндексированных сайтов. Утверждение о том, что робот просканировал страницы сайта, сразу пробил каким-то фильтром, принял решение исключать из индекса или продолжать сканировать, считаю в корне неверным. Скорее всего при обращении к новому сайту происходит его сканирование в штатном режиме, одновременно этот сайт отсылается на проверку фильтрами, где он встает в конец очереди из уже ранее отправленных. Таким образом, пока проверку не пройдут предыдущие сайты, вновь отправленный будет ожидать своей очереди. Естественно, все это происходит многопоточно на столько, на сколько это позволяют ресурсы (в распределительных вычислениях, к сожалению, не силен, поэтому продолжить мысль дальше не смогу).

Фильтров несколько. Ну это и так понятно, что существует не один «мегафильтр», а много разных, на контент, на трафик, на ссылки входящие/исходящие и т.д. Смысл в том, что каждый сайт проходит через все фильтры не «разом», а в строгой последовательности. Связано это, в первую очередь, с экономией мощностей. Для наглядности приведу упрощенный пример. Есть 100 сайтов. Есть два фильтра, один проверяет наличие простеньких JS редиректов/скрытого текста, второй — морфологическую целостность текста. Сайт проходит через эти два фильтра последовательно, результат прохождения, условно, либо 0 (фильтр не пройден, сайт забанен, второй фильтр не проходится), либо 1 (фильтр пройден, постановка в очередь на проверку через второй фильтр). Предположим, что экспериментально доказано, что 50% сайтов не соответствуют как первому, так и второму фильтру. С какого фильтра надо начать? Естественно, с первого. По той причине, что на прохождение ста сайтов через первый фильтр и 50 через второй потребуется затратить меньше мощностей, чем сначала у всех сайтов проверить морфологию (достаточно затратный процесс) и у оставшихся тупо проанализировать исходный код и файлы стилей. Таким образом, фильтры располагаются в следующем порядке — первыми идут те, которые требуют меньше всего мощностей и которые в идеале отсеивают больше всего сайтов, последними идут те, которые соответственно потребляют больше всего мощностей, т.к. чисто экономически выгодно, чтобы до этого фильтра добралось как можно меньше сайтов. Также повторюсь, что все фильтры проходятся последовательно, т.е. пока сайт стоит в очереди на проверку, скажем, вторым фильтром, третьим-четвертым-пятым он не проверится.

Теперь немного о самих фильтрах и вообще об отношении Яндекса к сайту прошедшему/непрошедшему фильтр. Изначально сайт считается «белым». Такая вот презумпция невиновности. Даже если сайт полностью состоит из генерированного контента, спам ссылок и т.д., он все равно будет считаться «белым» и будет находится в индексе до тех пор, пока не пройдет хотя бы первый фильтр.

Результатом работы фильтра является не «Да/Нет», а скорее какое-то переменное значение, характеризующее степень соответствия фильтру, пускай будет от 0 до 10. Если 0 — сайт полностью соответствует фильтру и банится, если 10, то никаких признаков соответствия не обнаружено, сайт все также считается «белым» (возможно даже что-то типа +1 к трасту) и встает в очередь на проверку следующим фильтром. Соответственно есть и пограничные варианты, например степень соответствия 3-5, тогда сайт не банится, а выкидывается часть страниц, 7-8 — опускается в результатах поиска и т.д. Из этого следует, что если вы сделали дорвей, и он сразу забанился, значит был не пройдет один из первых фильтров, если полностью влез в индекс и забанился спустя несколько дней, значит первые фильтры пройдены успешно, но не удалось пройти другие, если не забанился, а влез только 5-10-30 страницами, значит какому-то фильтру дорвей соответствует только частично и вы двигаетесь в правильном направлении, немного доработок — и очередной фильтр будет пройден.

На данный момент я выделяю для себя четыре основных фильтра. Как уже говорил выше, каждый сайт проходит через них последовательно, каждый последующий фильтр требует от ПС все больше и больше мощностей.

 

  • Фильтр #1
    Простейший морфологический анализ текстовой составляющей.

     

     

     

    На этом фильтре отсеивается грубо генерированный контент, транслит, плохой синонимайзинг. Чаще всего результатом работы этого фильтра являются пограничные значения, 0 или 10, т.е. либо бан/урезание количества страниц в индексе до не более 10, либо переход к следующему фильтру. Время, необходимое для прохождения сайтов через этот фильтр, минимально. От постановки сайта в очередь до прохождения через фильтр проходит редко больше нескольких дней.

  • Фильтр #2
    «Полезность» контента.

    Весьма абстрактный фильтр. Под него попадает «плохой» копипаст (заюзанные адалт рассказы, например), неформатированный контент, в том числе и уник (напарсенный с закрытых от индексации источников или скан). Результат работы фильтра очень зависит от типа контента. Если «плохой» копипаст — бан, если копипаст из многих источников (парсинг Яндекс Новостей), то скорее всего урежет страницы, «хороший» копипаст или уник — ну и нормально, может быть 10-ку не получит, но на 7-8 можно рассчитывать смело. С медиа контентом так вообще прекрасно, Яндекс не может определить полезность, скажем, подборки картинок, подкастов или ютуб-роликов, поэтому такой сайт получает твердую 9-10, если явных нарушений нет.

  • Фильтр #3
    Теория вероятностей и мат.статистика.

    Вот тут начинается самое интересное. Наиболее простой пример применения данного фильтра — 100% тайтлов это ключи из вордстата. Дальше — больше. Основательный анализ контента на предмет морфологии и статистического распределения слов и словосочетаний (наилучшая реализация цепей Маркова, прошедшая через первый фильтр, скорее всего запорится на этом). Или еще пример — на сайте 1000 статей, каждая статья содержит 10-15 предложений, по 30-70 знаков в каждом, причем все распределено крайне равномерно без явных отклонений. Что это означает? Да только то, что сайт — генерированный.

    Пройти этот фильтр, если используется генерированный контент, очень трудно. Если копипаст или уник, то вполне реально, главное чуток подучить теорвер.

    Время, необходимое для того, чтобы новый сайт добрался до этого фильтра, примерно неделя-две, иногда больше.

    Для большинства вроде как хорошо сделанных дорвеев прохождение этого фильтра оканчивается баном.

  • Фильтр #4
    Анализ трафика, хитроботы.

    До этого фильтра у меня пока не добрался ни один дорвей. На вскидку здесь проверяется разные способы клоакинга, мониторится входящий/исходящий трафик, пути юзеров по сайту, хитробот выполняет скрипты и т.д.

Небольшая вставка, на каком этапе сейчас нахожусь я. Первый фильтр преодолевать научился, генерированный текст паблик средствами, синонимайзинг и транслит себя не оправдали. Хороший копипаст, уник, медиа-контент чаще всего проходят этот фильтр без проблем.

О четвертом фильтре пока и не задумываюсь, так как умение обходить первые три уже даст хороший профит, обход четвертого нужен для создания так называемых «вечных» доров, которые живут месяцами и банятся в основном только по стуку.

По поводу третьего мыслей очень много, но отложил пока на потом. Сейчас делаю упор на обход второго, т.е. создание доров из контента, который Яндексу будет казаться полезным. Просто забивать дор роликами с ютуба или картинками не вариант, нужны способы изощреннее, вот когда начну на 100% пробивать второй фильтр, тогда перейду к третьему.

Теперь вернемся к взаимосвязи апдейтов и фильтров. Апдейты идут ежедневно, как только какой-то сайт индексируется, он сразу попадает в выдачу. Одновременно сайты проходят через ряд фильтров, в зависимости от результатов прохождения меняется положение сайта в выдаче и количество страниц в индексе. Причем меняется не сразу после того, как сайт прошел фильтр, а только во время очередного апдейта. Т.е. к примеру сайт попал в индекс и уже висит в выдаче, до наступления следующего апдейта он успел пройти какой-то фильтр, где набрал 3-4 балла из 10, что соответствует урезанию страниц в индексе, до следующего апдейта он будет висеть со всеми страницами, которыми был при предыдущем, а как новый апдейт наступит — тогда уже страницы и вылетят. То же касается и банов. Т.е. по факту прохождения фильтра сайт банится, но до наступления следующего апдейта будет висеть в выдаче. Что касается синхронизации ежедневных апдейтов и тех, при которых индекс выкладывают в паблик, у меня видение такое. Скорее всего тот индекс, который выложили сегодня, принадлежит апдейту некоторой давности, что наиболее целесообразно с той точки зрения, чтобы побольше сайтов успело зафильтроваться и в выдаче было меньше спама. Более того, иногда происходит синхронизация ежедневных апдейтов с выложенным в паблик индексом. Это всем известные выпадения сайтов или баны в «междуапье». Т.е. если сайт попал под какой-нибудь АГС17, то вы об этом узнаете только через несколько дней, когда в паблик выложат тот индекс, в котором уже у сайта урезанное количество страниц. А если сайт попал в бан, то происходит синхронизация текущего индекса с тем, что выложен в паблик именно для этого сайта. Это, в принципе, правильно. Если сайт попал в бан, то это явный спам, а зачем спам держать в индексе еще несколько дней?

Вот вроде бы все. Конечно, многие моменты спорны, многие описаны лишь поверхностно, но для начала, думаю, сойдет. В заключении хотелось бы привести некий Q&A, т.к. я в самом начале сказал, что моя теория отвечает на многие вопросы.

Q: Почему доры на ломе нормально индексируются даже на генерированном контенте?
A: Т.к. сайт уже давным давно прошел через все фильтры, вновь добавленные страницы повторно не проверяются (ну или не так быстро). Еще траст, конечно, но это уже касательно высоких позиций, нежели индексации как таковой.

Q: Почему в выдаче можно найти дорвеи, сделанные паблик доргенами с плохой текстовкой?
A: Как я уже говорил, сайты строятся перед фильтром в очередь и пока фильтр не пройден, сайт считается хорошим. А т.к. дорвеи на паблик решениях генерируются в промышленных масштабах, то пройти через фильтры до наступления того времени, когда индекс выкладывают в паблик, успевают не все доры. Отсюда и их присутствие в выдаче.

Q: Почему раньше, если сгенерировать дор и повесить на главную страницу уник, то он лучше индексировался?
A: Видимо для ускорения прохождения сайтов через фильтр анализировалась только главная страница. Соответственно если на ней был уник, то фильтр проходился.

Q: Что лучше, отстаивать домен с заглушкой или с мини сайтом?
A: Склоняюсь к тому, что с мини сайтом. Скорее всего Яндекс не считает заглушку «Сайт в разработке» или приветственные страницы установленных CMS полноценными сайтами, поэтому прохождение через фильтры начинается только тогда, когда на сайте начинает что-то появляться. Отсюда, кстати, и тот факт, что полностью идентичные сайты (с только что установленным вордпрессом с тестовой записью, например) не склеиваются.

Q: Почему среднее время жизни хорошего дора порядка двух недель?
A: Проходят два первых фильтра, но не проходят третий. А это как раз неделя-две.

Q: Почему иногда доры банятся в междуапье?
A: Дор забанился во время очередного ежедневного апа. Раз забанился, значит спам и держать такой сайт в выдаче еще несколько дней не представляется разумным. Поэтому происходит синхронизация индекса, выложенного в паблик, с индексом, полученным в результате последнего апдейта.

Q: Почему иногда все доры у всех начинают очень быстро банится?
A: Обычно когда на всех форумах начинают писать, что доры стали резко банится, можно заметить либо тормозящие другие сервисы Яндеса, либо радостные сообщения в официальном блоге/блоге на Хабре о приобретении нового оборудования. Т.е. либо выделили новые мощности в ущерб чему-то, либо просто расширили техническую базу. В итоге сайты стали проходить через фильтры быстрее.

Комментарии

Вот кто в моем ридере простыни пишет. Конструктивная информация, поэтому читаю всё.

/Вот кто в моем ридере простыни пишет.
Да, признаюсь, не всегда удается вогнать свои мысли в "короткую форму". Хотя я, если честно, и не особо к этому стремлюсь=)

Статья вообще очень глубокая на мой взгляд. Сам говоришь что некоторые моменты могут быть спорны, но я не знаю, опыта нет. Зато у тебя анализ конкретный, я такое, последние пару месяцев ни у кого ВООБЩЕ не читал.

Почитай http://anticorporativ.ru/jonn22/ - может чем поможет. :)

Если все изучил - то где бабло? :)

Алматинский полубомж, спасибо)
/Почитай http://anticorporativ.ru/jonn22/ - может чем поможет.
О школе "вечных дорвеев" читал, ИМХО мутно все как-то. Плюс более чем уверен, что всему этому научить нельзя, а если и можно, то это скорее вред, чем польза - очередная смена алгоритма или ввод нового фильтра, и окажешься на мели, т.к. умеешь пользоваться только готовыми продуктами и усваивать готовую информацию.
/Если все изучил - то где бабло? :)
Ждал этого вопроса=) Если коротко - то сейчас в стадии создания своих инструментов. Создавать свои инструменты не имеет смысла без понимая что конкретно и, главное, для чего надо делать и без возможности отследить эффективность внедрения той или иной идеи. Поэтому пришлось сформировать некую теорию (которую изложил в посте) и от нее уже отталкиваться. Плюс все доры, которые делал - делал без слива трафика, т.к. для меня главным было не срубить немного денежек, а понять когда и почему эти доры забанятся, а вешать редирект было бы нарушением чистоты экспериментов. Ну и конечно не хватает знаний, времени, опыта, денег и т.д. Как нибудь, да прорвусь. Обязательно.

Как твой рыболовный СДЛ? Отложил до лучших времен?

Можно сказать и так. Хотя все равно вся деятельность крутится вокруг веб-строительства, что сильно подможет, когда все-таки доберусь конкретно до этого сайта.

хуенная статья, много пищи для размышлений.
имхо: если на главной допустим "добро пожаловать на сайт блаблабла. Он расположен на хостинге албалбалб" а дор уже залит, тогда наверн на фильтр идут внутряки...
и проход алгоритмов наверно не совсем от первого до энного, возможно начисляються баллы, если в 1-ом набранно > 5 баллов переходим к 2, иначе к 3... опять же экономия мощностей