Настройка файла robots.txt
Файл Robots.txt необходим для предоставления инструкций (директив) поисковым роботам по обработке страниц сайта. Одна из основ seo-оптимизации сайта состоит в корректном наполнении данного файла, который размещается по адресу site.ru/robots.txt. Расположение - строго только в корневой папке сайта.
* В статье мы не описываем синтаксис robots.txt, не рассказываем о том – какие регулярные выражения использовать и когда их применять, так как на все эти вопросы отвечает сам Яндекс.
https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml
Материал рассчитан на практическое применение уже освоенных теоретических данных о составе файла robots.txt
Мы выделяем 6 этапов составления robots, которые подходят для 99% сайтов в интернете:
- Сканирование сайта программами-пауками и выделение «некачественных» страниц;
- Ручное просматривание сайта и выделение технических страниц;
- Просмотр страниц в выдачи поисковых систем (если сайт не слишком большой).
- Разбор кода сайта и структуры файлов/папок для открытия для индексации файлов-картинок, js и css;
- Написание стандартных директив с указанием основного зеркала и т.п.;
- Итоговая проверка в Яндекс.Вебмасетере.
Этап 1. Сканирование сайта пауками
Сканирующие программы, как поисковые пауки (краулеры) проходят по всем ссылкам на сайте и создают базу из найденных страниц сайта, к таким приложениям относятся: Screaming Frog, Page Weight , Netpeak Spider. В статье указываем скриншоты с Netpeak Spider.
В программе собираем данные о страницах с дублирующими мета-тегами, находим причину их возникновения и закрываем от индексации. В этом же окне смотрим страницы с ошибками. Как правило, на технических/некачественных страницах нет каких-то мето-данных, поэтому, изучив страниц с ошибками, вы найдете «бесполезные» страницы.
Этап 2. Ручное сканирование сайта
На большинстве сайтов присутствует стандартный набор кнопок/форм, которые могут создавать технические страницы, к ним относятся:
- формы поиска;
- любые кнопки фильтра;
- формы восстановления паролей;
- кнопки обратных звонков и отправки вопросов;
- этапы оформления заказов;
- кнопки сравнения товаров.

В первую очередь необходимо «прощелкать» эти кнопки и посмотреть как формируются адреса возникающих страниц. На указанном пример обозначены стандартный набор потенциально-опасных форм.
Этап 3. Изучение поисковой выдачи
Если сайт до 500 страниц, то не так трудно просмотреть все имеющиеся страницы в выдаче как в Яндексе, так и в Google. «Кривые» страницы легко заметить, так как и заголовок страницы, и сниппет выделяются на фоне остальных. Команда для просмотра всех страниц в поиске – site:sitename.ru.
На примере приведена страница-пагинации, которая засоряют выдачу.
Этап 4. Отрытие картинок js и css
Для поисковых систем важно иметь доступ к индексированию этих файлов. Google настоятельно рекомендует всем вебмастер открывать js и css файлы. Для это мы изучаем исходный код страниц сайта и уже в хедере всегда можно заметить ссылку на файлы/папки, где лежат данные файлы. Чаще всего эти файлы (при правильной структуре) лежат в папке шаблона, поэтому для индексации отдельно командной «Allow» открываем всю папку шаблона.
Например, на указанном примере видно, что нужно открыть отдельно папку шаблона «INTEC-2» и папку «JS», где отдельно вынесены все скрипты. В идеале хороший разработчик создает отдельные папки для стилей и скриптов и хранит все соответсвующие файлы только в них. На практике далеко не всегда так бывает.
Этап 5. Прописываем стандартные директивы.
Во-первых, рекомендуется разделить агенты на Gooleboot, Yandex и все остальные. Во-вторых для всех них прописываем строку (3 раза).
Sitemap: site.ru/sitemap.xml - карту сайта также в корень желательно размещать.
Для Яндекс прописываем Host: site.ru - указание основного зеркала сайта.
Эти 2 директивы обязаны иметь все сайты, чтобы устранить возможные недоразумения со стороны поисковиком.
Этап 6. Проверка
В Яндекс.Вебмастере используем инструмент проверки файла robots.txt. Тут важно проверить следующее:
- Не закрыты ли страницы каталога, товарные страницы и иные важные адреса;
- Действительно ли закрыты все те страницы, которые были найдены на первых 3-ех этапах;
- Доступно ли для индексации JS CSS и картинки;
- Ошибки синтаксиса, которые выводит сам Яндекс.

На этом этап проверки будет завершен. Минимальная проверка, которая предотвратит возможные нарушения при обработке сайта. Файл robots.txt готов, и останется только залить его в корень сайта.
А что вы думаете по этому поводу? Давайте обсудим в комментариях!