Настройка файла robots.txt

Максим Акулов
29 Мая 2017 г, 21:24
   59

Файл Robots.txt необходим для предоставления инструкций (директив) поисковым роботам по обработке страниц сайта. Одна из основ seo-оптимизации сайта состоит в корректном наполнении данного файла, который размещается по адресу site.ru/robot.txt.  Расположение - строго только в корневой папке сайта.

* В статье мы не описываем синтаксис robots.txt, не рассказываем о том – какие регулярные выражения использовать и когда их применять, так как на все эти вопросы отвечает сам Яндекс. https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml  
Материал рассчитан на практическое применение уже освоенных теоретических данных о составе файла robots.txt

Мы выделяем 6 этапов составления robots, которые подходят для 99% сайтов в интернете:

  • Сканирование сайта программами-пауками и выделение «некачественных» страниц;
  • Ручное просматривание сайта и выделение технических страниц;
  • Просмотр страниц в выдачи поисковых систем (если сайт не слишком большой).
  • Разбор кода сайта и структуры файлов/папок для открытия для индексации файлов-картинок, js и css;
  • Написание стандартных директив с указанием основного зеркала и т.п.;
  • Итоговая проверка в Яндекс.Вебмасетере.

Этап 1. Сканирование сайта пауками

Сканирующие программы, как поисковые пауки (краулеры) проходят по всем ссылкам на сайте и создают базу из найденных страниц сайта, к таким приложениям относятся: Screaming Frog, Page Weight , Netpeak Spider. В статье указываем скриншоты с Netpeak Spider.

 

В программе собираем данные о страницах с дублирующими мета-тегами, находим причину их возникновения и закрываем от индексации.  В этом же окне смотрим страницы с ошибками. Как правило, на технических/некачественных страницах нет каких-то мето-данных, поэтому, изучив страниц с ошибками, вы найдете «бесполезные» страницы.
 

Этап 2. Ручное сканирование сайта

На большинстве сайтов присутствует стандартный набор кнопок/форм, которые могут создавать технические страницы, к ним относятся:

  • формы поиска;
  • любые кнопки фильтра;
  • формы восстановления паролей;
  • кнопки обратных звонков и отправки вопросов;
  • этапы оформления заказов;
  • кнопки сравнения товаров.

В первую очередь необходимо «прощелкать» эти кнопки  и посмотреть как формируются адреса возникающих страниц. На указанном пример обозначены стандартный набор потенциально-опасных форм.

Этап 3. Изучение поисковой выдачи

Если сайт до 500 страниц, то не так трудно просмотреть все имеющиеся страницы в выдаче как в Яндексе, так и в Google. «Кривые» страницы легко заметить, так как и заголовок страницы, и сниппет выделяются на фоне остальных. Команда для просмотра всех страниц в поиске – site:sitename.ru.


На примере приведена страница-пагинации, которая засоряют выдачу.

 

Этап 4. Отрытие картинок js и css

Для поисковых систем важно иметь доступ к индексированию этих файлов. Google настоятельно рекомендует всем вебмастер открывать js и css файлы.  Для это мы изучаем исходный код страниц сайта и уже в хедере всегда можно заметить ссылку на файлы/папки, где лежат данные файлы. Чаще всего эти файлы (при правильной структуре) лежат в папке шаблона, поэтому для индексации отдельно командной «Allow» открываем всю папку шаблона.


Например, на указанном примере видно, что нужно открыть отдельно папку шаблона «INTEC-2» и папку «JS», где отдельно вынесены все скрипты. В идеале хороший разработчик создает отдельные папки для стилей и скриптов и хранит все соответсвующие файлы только в них. На практике далеко не всегда так бывает.
 

Этап 5. Прописываем стандартные директивы.

Во-первых, рекомендуется разделить агенты на Gooleboot, Yandex и все остальные. Во-вторых для всех них прописываем строку (3 раза).
Sitemap: site.ru/sitemap.xml  - карту сайта также в корень желательно размещать.
Для Яндекс прописываем Host: site.ru  - указание основного зеркала сайта.

Эти 2 директивы обязаны иметь все сайты, чтобы устранить возможные недоразумения со стороны поисковиком.
 

Этап 6. Проверка

В Яндекс.Вебмастере используем инструмент проверки файла robots.txt. Тут важно проверить следующее:

  • Не закрыты ли страницы каталога, товарные страницы и иные важные адреса;
  • Действительно ли закрыты все те страницы, которые были найдены на первых 3-ех этапах;
  • Доступно ли для индексации JS CSS и картинки;
  • Ошибки синтаксиса, которые выводит сам Яндекс.

На этом этап проверки будет завершен. Минимальная проверка, которая предотвратит возможные нарушения при обработке сайта. Файл robots.txt готов, и останется только залить его в корень сайта.

 


А что вы думаете по этому поводу? Давайте обсудим в комментариях!

Понравилась статья? Получай свежие статьи первым по e-mail.
Подпишитесь на обновления:
Оцените статью:
Поделиться:
Популярное в блоге
подпишитесь на обновления
Больше полезных статей, кейсов и мануалов еще впереди. Подпишись на обновления, это бесплатно!
Мы в социальных сетях
Оставить заявку