Как составить правильный Robots.txt для WordPress, DLE, Joomla, NGCMS

Robots.txt
В этой небольшой статье мы расскажем о том, как создать правильный файл robots.txt для WordPress, DLE, NG CMS и Joomla.

Тем, кто не очень хорошо знает, зачем нужен файл robots.txt — это специальный текстовый файл, который находится в корневой папке вашего сайта, и файл этот говорит поисковым роботам, как следует индексировать ваш сайт, какие страницы не нужно включать в поиск, а какие должны там быть.

Robots.txt играет немаловажную роль, он позволяет правильно и быстро индексировать ваш сайт, а если вы не лучшим образом его составите, в результате некоторые нужные страницы вашего ресурса могут вовсе исключить поисковики, и наоборот — ненужные дубли, мусорные страницы могут попасть в индекс, и это очень отрицательно повлияет на поисковую выдачу, и все ваши надежды на сайт, как говорится, «улетят в трубу».

Представляем Вам файлы robots.txt для различных CMS:

Правильный Robots.txt и .htaccess для Dle:

User-agent: * Disallow: /*print Disallow: /user/ Disallow: /backup/ Disallow: /engine/ Disallow: /language/ Disallow: /templates/ Disallow: /upgrade/ Disallow: /uploads/ Disallow: /autobackup.php Disallow: /admin.php Disallow: /index.php?do=addnews Disallow: /index.php?do=feedback Disallow: /index.php?do=lostpassword Disallow: /index.php?do=pm Disallow: /index.php?do=register Disallow: /index.php?do=stats Disallow: /index.php?do=search Disallow: /index.php?subaction=newposts Disallow: /?do=lastcomments Disallow: /statistics.html Host: Ваш_сайт Sitemap: [УРЛ вашей карты сайта]

В результате из индекса исключаются все версии страниц для печати;
Закрываются страницы профилей, в которых часто спамят недобросовестные вебмастеры;
Запрещаются к индексации страницы, где отсутствует полезный для посетителей контент, например, админка;
Отбрасывается всякий хлам;
Задаётся местонахождение карты сайта и хост.
В зависимости от наличия каких-нибудь других ненужных папок, к примеру, созданных вами, не забудьте закрыть и их.

Настройка .htaccess для Dle

Открываем файл, который, как и предыдущий, лежит в корне сайта. Находим строчки в самом начале:

DirectoryIndex index.php RewriteEngine On

Вместо них вставляем:

RewriteEngine On Options +Indexes Options +FollowSymLinks

# Редирект для категорий (чтобы в конце URL был /)

RewriteBase / RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteCond %{REQUEST_URI} !-f RewriteCond %{REQUEST_URI} !/$ RewriteCond %{REQUEST_URI} !.html$ RewriteCond %{REQUEST_URI} !.xml$ RewriteRule (.+) $1/ [R=301,L]

# Редирект c www на без www

RewriteCond %{HTTP_HOST} ^[УРЛ] RewriteRule ^(.*)$ Ваш УРЛ/$1 [R=permanent,L]

# Редирект для главной (с /index.php,html на /)

RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.html\ HTTP/ RewriteRule ^index\.html$ / [R=301,L] RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\.php\ HTTP/ RewriteRule ^index\.php$ / [R=301,L]

В коде, на всякий случай, присутствуют пояснения. Их удалять не обязательно – на работе они не скажутся. Не забываем вместо [УРЛ] прописывать нужный адрес.

В результате:

Все адреса категорий на конце будут со слэшем (/) – для удаления из индекса разных url.
Основным хостом сайта задаётся адрес без www. Аналогично можно сделать и наоборот.
Устанавливаем редирект со всех второстепенных адресов главной страницы (ваш сайт/index.php, ваш сайт [url] и ваш сайт/index.php) на один – [url].

Robots.txt для WordPress

User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/*/* Disallow: */trackback Disallow: /trackback Disallow: */feed Disallow: /feed Disallow: */comments Disallow: /comments Host: Ваш сайт.ru User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: /category/*/* Disallow: */trackback Disallow: /trackback Disallow: */feed Disallow: /feed Disallow: */comments Disallow: /comments Sitemap: [url вашей карты сайта]

Robots.txt для Joomla

User-agent: * Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Sitemap: [url вашей карты сайта XML формата] User-agent: Yandex Disallow: /administrator/ Disallow: /cache/ Disallow: /includes/ Disallow: /installation/ Disallow: /language/ Disallow: /libraries/ Disallow: /media/ Disallow: /modules/ Disallow: /plugins/ Disallow: /templates/ Disallow: /tmp/ Disallow: /xmlrpc/ Host: vash_sait.ru Sitemap: [url вашей карты сайта XML формата]

Обязательно имейте ввиду, что директиву Host понимает только Яндекс, и специально для этого нужно использовать User-agent: Yandex, а для указания действий к индексации другим поисковым роботам нужно использовать другую директиву User-agent.

Вы можете добавлять свои правила в файл robots.txt, но после этого обязательно протестируйте — достигли ли вы желаемого результата.

Robots.txt для NGCMS

User-agent: * Disallow: /engine/ #системная папка — доступ закрыт Disallow: /templates/ #папка с шаблонами — доступ закрыт Disallow: /uploads/avatars/ #папка с аватарами — доступ закрыт Disallow: /uploads/dsn/ #папка с аттачами — доступ закрыт Disallow: /uploads/files/ #папка с файлами — доступ закрыт Allow: /uploads/images/$ #папка с картинками — доступ открыт Disallow: /uploads/images/thumb/ #папка с превью картинок — доступ закрыт (если надо открыть доступ и к превью, удалите эту и предыдущую строку) Disallow: /uploads/photos/ #папка с фото — доступ закрыт Allow: /plugin/gsmg/ #плагин карты сайта — доступ открыт Disallow: /plugin/ #остальные плагины — доступ закрыт Disallow: /*print #страница печатной версии материала — доступ закрыт Disallow: /search/ #страница поиска — доступ закрыт Allow: /rss.xml #основной rss поток — доступ открыт Disallow: /*xml #rss категорий — доступ закрыт Disallow: /login/ #страница регистрации — доступ закрыт Disallow: /logout/ #страница выхода — доступ закрыт Disallow: /register/ #страница регистрации — доступ закрыт Disallow: /activate/ #страница активации — доступ закрыт Disallow: /lostpassword/ #страница восстановления пароля — доступ закрыт Disallow: /profile.html #страница профиля — доступ закрыт Disallow: /users/ #страницы пользователей — доступ закрыт Sitemap: [url вашей карты сайта] #указываем ботам, где находится карта сайта (ДОМЕН указывать согласно строке Host (см. ниже)) Host: [url вашего сайта] #указываем для Yandex, основной домен сайта (если основной домен идет с www, то писать с www)

Все комментарии, которые начинаются с #, необходимо удалить. Немаловажный момент, как вы уже наверно обратили внимание, все строки с Allow: идут перед Disallow:, если сделать наоборот, то все, что открыто, будет закрыто. Также недопустимо наличие пустых переводов строки, между директивами User-agent: и Disallow: или Allow:, а также непосредственно между самими директивами Disallow: и Allow:

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *