O robots.txt

Опубликовано tulvit - пт, 02/01/2015 - 10:10

Пару слов о роботс.тхт, больше на правах "мысли вслух".

Какие страницы закрывать от индексации?

Все не являющиеся посадочными. С точки зрения здравой логики, без всей этой SEO мути вида "чем больше страниц в индексе, тем лучше, плюс может по сверх НЧ кто-то зайдет...".

Страницы отдельных статей - они, понятное дело, посадочные. Генерированные страницы (например, вариативность представления одного и того же контента в зависимости от переданных параметров, те же различные сортировки таблиц через GET параметр, table?sort=by_rating и т. д.) - не посадочные, оставлять в индексе надо только дефолтное представление.

Вопрос, что считать LP, а что нет (как вообще, так и в контексте отдельно взятого сайта), достаточно скользкий, как по мне. Достаточно много пограничных примеров, когда при должной аргументации, пусть и немного притянутой, страницу одновременно можно считать как и полноценно посадочной, так и сгенерированной. Здесь уже приходится теоретизировать на тему, существует ли такой спектр запросов, по которому данные страницы имеют смысл находиться в топе и при этом отвечать запросу пользователя, т. е. быть релевантными.

Например, страницы с профилями пользователей я считаю за чистые LP, т. к. их могут искать в поиске по тому же нику юзера (другими словами, страница сайта с профилем пользователя, выданная в серпе по ключу %nickname%, является релевантной). Со страницами с выборками по тегам уже сложнее - вроде бы чистейшей воды выборка, но иногда эти самые выборки и являются самым что ни на есть релевантным результатом на запрос пользователя (как в моем случае с цитатами, есть БД из десятков тысяч цитат, разбитые по тегам вида kids, life, parents и т. д., и есть очень массовый сегмент поисковых запросов quotes on/about something - и вот на эти запросы выдавать эти самые выборки мне кажется вполне себе логичным).

Что я не считаю LP и стараюсь закрывать от индексации:

  • Системные страницы (страницы восстановления пароля или входа на сайт).
  • Модификаторы представления (page/sort_asc, page/sort_desc) - в индексе должно быть только одно дефолтное представление.
  • Страницы с пагинацией. В контексте того же блога - в индексе должна быть главная страница выборки (последние посты по дате, например) и каждый отдельный пост. Зачем в индексе быть третьей (blog?page=3) странице и на какой запрос пользователя она может ответить, совершенно непонятно.
  • Контекстно-зависимая информация, т. е. нет смысла держать в индексе страницы с каждым отдельным комментарием (особенности некоторых CMS).
  • Явно генерированные выборки. Например, страницы результатов поиска по сайту.

И т. д. Общий смысл понятен.

Несколько ссылок на тему:

Небольшая оговорочка: в моей практике явной взаимосвязи отношения ПС к сайту и манипуляций с роботсом обнаружено не было. Но у меня и выборка не такая уж и большая, полтора сайта, грубо говоря. Сам же стараюсь уделять внимание роботсу больше не потому, что это благотворно скажется на позициях и трафике, а потому что "так правильно". Вот.

robots.txt - рекомендации, не команды

Прописанные в роботсе директивы являются для ПС всего-навсего рекомендациями, которые они могут выполнять, а могут и нет. Это даже не запрет к индексации как таковой, а способ показать ПС, что указанные страницы являются малозначимыми. Т. е. вполне вероятна ситуация, когда мы закрываем от индексации какой-то кластер сайта, однако страницы из него упорно продолжают индексироваться.

Гугл говорит об этом следующее:

Blocking Google from crawling a page is likely to decrease that page's ranking or cause it to drop out altogether over time. It may also reduce the amount of detail provided to users in the text below the search result. This is because without the page's content, the search engine has much less information to work with.

However, robots.txt Disallow does not guarantee that a page will not appear in results: Google may still decide, based on external information such as incoming links, that it is relevant. If you wish to explicitly block a page from being indexed, you should instead use the noindex robots meta tag or X-Robots-Tag HTTP header. In this case, you should not disallow the page in robots.txt, because the page must be crawled in order for the tag to be seen and obeyed.

На счет пагинации, нужна она в основном лишь для того, чтобы предоставить ботам возможность дойти до всех страниц, которые есть на сайте. В случае твоего блога пагинация действительно нафиг не нужна, т.к. есть "Архив", по сути почти полная карта сайта.

Вот зацени, годные материалы по SEO http://www.youtube.com/user/pixelplusru/videos

На счет пагинации, нужна она в основном лишь для того, чтобы предоставить ботам возможность дойти до всех страниц, которые есть на сайте.

Это да, проблема. Хотя на практике боты гугла все равно иногда ходят по закрытым в роботсе страницам (сейчас по логам проверил). Идеальным вариантом наверно будет формирование сайтмапов чисто для таких вот технических нужд (для блога да, "Архив" вполне справляется с этим).

Просто хотеть новые проектики делать правильными со всех точек зрения, пусть это никому и не нужно, кроме как мне :3

Вот зацени, годные материалы по SEO

Такая-то ностальгия =) Несколько лет не слежу за всем этим SEO, только что по буржу иногда на что-то случайно натыкаюсь. А раньше смотрел, SeoPult TV тот же.

Пролистал видео по ссылке, да закрыл. Не буду смотреть :3 Недолюбливаю SEO что-то, да и у себя в качестве основных проблем вижу не ошибки в SEO, а просто не вытягиваю сайты до нормального уровня, чтобы быть конкурентно способным и чем-то заинтересовать аудиторию.

Добавить комментарий

You must have Javascript enabled to use this form.