Просмотр поста

.
Libra
Sensus veris
Запрет на индексацию
Иногда полезно запретить индексацию некоторых разделов или страниц сайта. Например, папки с графикой, совершенно бесполезные глазами робота страницы (такие как страница входа или регистрации), которые с вероятностью 100% не попадут в основной индекс и будут только мешаться, или различные служебные каталоги, которые необходимо запрещать к индексации, чтобы уменьшить нагрузку на сервер.
Как это сделать? А сделать это можно с помощью robots.txt, о котором речь пойдет ниже.

Файл robots.txt - зачем он нужен?
В общем виде файл robots.txt должен содержать как минимум две строки:
User-agent: *
Disallow: /images/
Звездочка означает, что данное правило (в нашем случае это запрет на индексацию папки с графикой) будет действовать для всех ботов.
Рассмотрим все на примере (данный пример, естественно, для JohnCMS)
User-agent: *
Disallow: /files/
Disallow: /images/
Disallow: /theme/
Disallow: /users/
Crawl-delay: 10

User-agent: Yandex
Disallow: /files/
Disallow: /images/
Disallow: /theme/
Disallow: /users/
Crawl-delay: 10
Host: site.ru
Итак, мы запретили к индексированию указанные разделы, в диррективе crawl-delay задали поисковому роботу минимальный период времени (в секундах) между концом закачки одной страницы и началом закачки следующей.
Для яндекса мы указали все отдельно, потому что для него мы указали еще и хост (основное зеркало без www).
Примечания:
Disallow: / - блокирует доступ ко всему сайту
Недопустимо наличие пустых переводов строки между директивами.
Не стоит в robots.txt указывать ссылки на админ-панели или на файл конфигурации.
Слишком большие robots.txt (более 32 Кб), а так же отдающие 404 ошибку (нет файла) считаются полностью разрешающими.

Закрытие внешних ссылок и отдельных частей страницы от индексации
Для закрытия внешних ссылок или отдельных частей страницы от индексации достаточно заключить их в теги <!--noindex-->...<!--/noindex-->. Данный вариант оправдан для Яндекса.
Для Гугла есть вариант со значением аттрибута rel - ссылка должна иметь вид <a href="адрес_сайта" rel="nofollow">название ссылки</a>
По таким ссылкам Google не передает ни PageRank, ни текст ссылки.
Для запрета индексации страниц или целых разделов, воспользуйтесь файлом robots.txt (см. выше).