Продолжаем осваивать базовые основы для самостоятельного продвижения.

Файл robots.txt находится в корне сайта и содержит инструкции для роботов поисковых систем, благодаря которому они понимают, какие документы можно сканировать и добавлять в результаты поиска, а какие нет. Стоит добавить, что эти инструкции для поисковых систем носят рекомендательный характер, робот сам решит, что сканировать, а что нет.

Если вам нужно жестко запретить доступ к каким то папкам на своем сайте, то лучше использовать файл .htaccess

Не будем писать подробную инструкции по составлению данного файла. Очень хорошая инструкция здесь http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml

Чего в той инструкции нет (да и во многих других), так это указания, что лучше запрещать, а что нет. Обычно рекомендуется закрывать служебные разделы, не имеющие отношения к внешнему вида сайта. Например папку admin, т.к. не желательно чтобы в результатах поиска была ссылка на страницу авторизации, кроме того, что это бесполезная информация уменьшающая ценность сайта, это еще и опасно. Но это и так понятно.

Robots.txt для поисковой оптимизации (SEO)

Главную ценность файл robots.txt представляет для оптимизатора. В основном решая проблему дублирования контента. С дублями страниц можно бороться разными способами, но самый доступный для неопытного пользователя — это robots.txt

Итак, если мы знаем какие страницы у нас являются полными или частичными дублями (об этом в статье про дублирование контента), мы можем действовать следующим образом:

Использовать директивы disallow/allow — с помощью этих директив мы запрещаем или разрешаем индексацию отдельных страниц или целых разделов (с помощью маски *, кстати, некоторые считают, что использование маски это ошибка, но в инструкции Яндекса есть примеры с маской, значит всё в порядке)

Clean-param — отбрасывать параметры в адресной строке. Это очень часто становится причиной дублирования.

Meta name=»robots» для оптимизатора

Еще одно удачное решение — это использовать метатег robots для каждой страницы в заголовке <head></head>. Тут у нас даже больше возможностей, чем при использовании файла robots.txt. С помощью метатега мы можем:

  • index — индексировать страницу
  • noindex — пропустить страницу
  • follow — переходить по ссылкам проставленным на этой странице (например, мы знаем что контент дублированный или бесполезный, но в нем есть ссылки на страницы, которые должны попасть в поисковые системы)
  • nofollow — игнорировать ссылки на странице (например, контент полезный, но в нем есть ссылки на служебные разделы или дублированный контент)
  • all — работает как одновременное использование index + follow
  • none — аналогично noindex + nofollow

Подсказки по работе с robots.txt

Если вы используете популярную CMS (систему управления сайтом), то наверняка правильный robots.txt уже многократно был составлен. Примеры можно найти на форумах, блогах или просто скопировать на сайте, где вы уверены в хорошей работе вебмастера.

Как скопировать robots.txt? Очень просто, ведь он доступен любому желающему по адресу: http://любой-сайт/robots.txt (конечно, если он есть)

Прежде чем составлять инструкции для поискового робота, вам нужно проверить свой сайт на дубли и бесполезные страницы, как будто проверяете сайт самого злейшего врага. Не ленитесь, т.к. поисковые роботы очень любознательны. И потом закройте от робота всё лишнее.

Обязательно проверяйте составленные инструкции, это можно сделать в Яндекс.Вебмастере. Вы можете вводить адреса страниц и проверять закрыты они или нет. Иногда может оказаться, что у робота нет доступа даже к нужным страницам.