Блог на WP        20 февраля 2017        282         0

Как правильно составить robots.txt для WordPress

Как правильно составить robots.txt для WordPress

Как правильно составить robots.txt? Для WordPress есть универсальное решение, которое подойдет почти всем блогерам. Но обо всем по порядку.

Что такое robots.txt и зачем он нужен?

 Что такое файл robots.txt и для чего он нужен? Для новичков эта информация будет очень полезной и важной. В этом файле прописаны указания поисковым роботам какие страницы на вашем сайте индексировать, а какие нет. Это позволит вам избежать дублирование контента и повысит ваши позиции в выдаче.

Что такое дублирование контента и почему это плохо? Поисковые системы, такие как Яндекс и Google, без разбора просматривают ваш сайт и вносят в свои базы все страницы. Но часто бывает так, что одни и те же страницы могут быть на вашем сайте под разными адресами. Например:

Путь к самой статье:

http://wp-box.ru/sostavlenie-robots-txt-dlya-wordpress

Анонс статьи в категории:

http://wp-box.ru/category/articles/

Анонс заметки на главной странице:

http://wp-box.ru/page/2/

Путь к статье через теги:

http://wp-box.ru/tag/SEO/

Еще могут быть такие варианты:

http://wp-box.ru/sostavlenie-robots-txt-dlya-wordpress?2
http://wp-box.ru/sostavlenie-robots-txt-dlya-wordpress.htm
http://wp-box.ru/sostavlenie-robots-txt-dlya-wordpress.html

Все это дубликаты, т.к. содержат одну и ту же информацию. От таких страниц нам нужно избавиться, точнее убрать их из поисковиков. Есть еще «мусорные страницы». Это страницы авторизации, регистрации и другие. Словом — технические страницы.

Как правильно составить robots.txt для блога на WordPress

Как запретить поисковикам индексировать такие страницы? С помощью файла robots.txt. Ниже я приведу файл, который можно назвать универсальным для большинства блогов на WordPress.

Итак, правильно составленный robots.txt для блогов с ЧПУ:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /archive/
Disallow: /category/

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag/
Disallow: /archive/
Disallow: /category/
Host: wp-box.ru

Sitemap: http://wp-box.ru/sitemap.xml.gz
Sitemap: http://wp-box.ru/sitemap.xml

 

ВНИМАНИЕ! Этот robots.txt подойдет только тем блогам, у которых включен ЧПУ (Человеку Понятный Урл)! Т.е. этот robots.txt будет работать, если ваши статьи выводятся НЕ так:

http://wp-box.ru/?p=1

Если же ваши статьи выводятся именно таким образом (через знак вопроса и p=), то строчка:

Disallow: /*?*

запретит индексацию статей, поэтому ее нужно удалить из файла. Обратите внимание, что строчка встречается ДВА раза!

Ниже привожу правильный robots.txt для блогов без ЧПУ:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag/
Disallow: /archive/
Disallow: /category/

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag/
Disallow: /archive/
Disallow: /category/
Host: wp-box.ru

Sitemap: http://wp-box.ru/sitemap.xml.gz
Sitemap: http://wp-box.ru/sitemap.xml

Очень внимательно смотрите на адреса ваших статей! Если они выводятся через архивы или категории, то закрывать их не нужно. В таком случае удалите строчки:

Disallow: /archive/
Disallow: /category/

Иначе все ваши статьи будут исключены из индекса.

Теперь вам осталось лишь создать на рабочем столе файл robots.txt, скопировать в этот файл нужный вам вариант (не забудьте «wp-box.ru» заменить на свой сайт). Затем залить robots.txt в корневую папку на вашем сервере. Обычно это папка public_html. Если у вас не получается это сделать, то попробуйте воспользоваться плагином WP Robots Txt.

Проверка файла robots.txt

Настало время проверить наш robots.txt  в Google и Яндекс.

Яндекс. Откройте Яндекс.Вебмастер -> Анализ robots.txt. В поле Имя хоста вбейте адрес вашего сайта без http:// и нажмите кнопку Загрузить robots.txt с сайта.

Затем вам нужно добавить несколько страниц для проверки. Нажмите ссылку Список URL добавить. Скопируйте туда адреса ваших статей, тегов,  каталогов и страниц для проверки. По одному адресу в строчке. Потом жмите Проверить:

 

Как вы видите, статьи разрешены, а теги, каталоги и папка wp-admin запрещены. Все отлично!

Google. Откройте Инструменты для вебмастера и выберите ваш сайт (если сайта нет в списке, его нужно добавить). Затем слева выбираем Сканирование -> Заблокированные URL. Здесь нам нужно сделать примерно то же, что и для Яндекса. В первое поле копируем содержимое нашего robots.txt, во второе — список страниц для проверки.

Затем жмем кнопку Проверить:

Отлично! Статья разрешена к индексированию, а категория, теги и админка закрыты!

Итак, мы с вами научились правильно составлять файл robots.txt для блога на WordPress. Всего вам самого наилучшего и до скорых встреч!

  Метки:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Декабрь 2017
Пн Вт Ср Чт Пт Сб Вс
« Сен    
 123
45678910
11121314151617
18192021222324
25262728293031
Войти
Поделиться