Robots.txt для WordPress — как правильно

Robots.txt напрямую влияет на видимость вашего сайта в поисковиках. Чем меньше лишних, неоптимизированных страниц увидит поисковик, тем лучше будет представлено ядро ключевых слов.

В данном файле есть возможность задать основные правила индексирования блога для различных поисковых систем, а также применить различные права доступа для отдельных поисковых ботов. 

На примере я разберу как составить правильный robots.txt для WordPress. За основу возьму две основные поисковые системы – Яндекс и Google. Хочу заметить, что Яндекс предпочитает когда к нему обращаются отдельно и в этом нам поможет директива User-agent. Боты читают содержимое файла (как впрочем и исходный код любой страницы) сверху-вниз, поэтому именно User-agent должна стоять первой строкой.

User-agent: *

— если напротив директивы поставить звездочку, то все последующие правила будут относиться к любому роботу. Можно прописать отдельно правила для требуемых ботов, например для Яндекса строка будет выглядеть так:

User-agent: Yandex

Давайте вспомним, что вордпресс, как и любая система управления контентом (CMS) имеет свои административные ресурсы, папки администрирования и прочее, что не должно попасть в индекс. Для защиты таких страниц, которые могут содержать персональные данные, всевозможные логины и пароли необходимо запретить их индексацию в данном файле следующими строками:

Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/

Файлы темы, плагинов и кэш вордпресса тоже вряд ли нужны, применяем к ним соответствующие правила:

Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes

Следующим правилом написания правильного файла robots.txt является не допущение попадания в индекс, а в последствии и поисковую выдачу, таких страниц, которые дублируют основное содержание, тем самым снижая уникальность контента в пределах одного домена.

От таких страниц нужно как можно скорее избавляться, иначе возникает вероятность попадания под фильтр. Где на блоге вордпресс идет дублирование? В первую очередь это теги, страницы комментариев, ленты rss комментариев, записи различных авторов блога (пускай даже он один – все равно идет дублирование на странице /author/имя автора/ и т.д.
Обязательно запрещаем их к индексации:

Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments

Далее хотелось бы уделить внимание одному аспекту… Если на Вашем блоге используются человекопонятные ссылки, то страницы содержащие в своих УРЛ знаки вопроса зачастую являются “лишними” и очень часто опять же дублирующими основной контент. Поэтому их также следует запрещать:

Disallow: /*?
Disallow: /*?*
Disallow: /*.php

Обратите внимание, отдельные файлы с расширением .php также запрещены, связано это с тем, что та же главная страница доступна по нескольким адресам и один из них /index.php. Под этот запрет попадают и файлы администрирования – install.php, login.php и другие.

На этом редактирование роботса не заканчивается. В нем можно прописать дополнительные информационные данные, повышающие качество индексации. Среди них директива Host – задает главное зеркало (эту директиву учитывает только Яндекс, естественно пропишите свой адрес блога):

Host: s.chervach.com

Для ускорения и полноты индексации всех страниц добавим путь к расположению карты сайта sitemap (пишите свой адрес, для примера привожу свой):

Sitemap: http://s.chervach.com/sitemap.xml

На основании всего выше сказанного у меня сложилась такая картина:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /*.php
 
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category/
Disallow: /author/
Disallow: /page/
Disallow: /tag/
Disallow: /feed/
Disallow: */feed
Disallow: */trackback
Disallow: */comments
Disallow: /*?
Disallow: /*?*
Disallow: /*.php
Host: s.chervach.com
Sitemap: http://s.chervach.com/sitemap.xml

Помните: за ходом индексации нужно следить постоянно и вовремя вносить свои коррективы по отношению к файлу robots.txt на вордпресс и не только. С моей текущей версией можете ознакомиться пройдя по этой ссылке. Если у Вас возникли вопросы, задавайте, с удовольствием отвечу.

image_pdfimage_print