robots.txt: зачем нужен и как его создать?

Хола, котаны! В каждой поисковой системе есть куча ботов для индексации сайтов. Их основная задача — сканировать сеть и индексировать контент, чтобы потом предоставить его пользователям. Как правило, начинают сканирование с файла robots.txt. Это важная фишка сайта. Готов узнать, что это за файл, как его создать? Тогда усаживайся поудобнее, мы начинаем! 

Читать в полной версии

Что такое robots.txt?


Это простой текстовый файл в корне сайта, в котором хранится набор правил. Они могут разрешать или ограничивать доступ поисковым роботам к содержимому сайта. Текст состоит как минимум из двух строк  – количество зависит только от необходимости разрешить или запретить индексацию страниц. Одна строка включает одно правило. 

Из основного, что может делать этот файл: 

Скажем сразу, robots.txt — это не строгий запрет для поисковых ботов, это скорее как пиратский кодекс: список рекомендаций, но чаще всего боты им следуют. Это один из первых аспектов, анализируемых поисковыми роботами. По умолчанию доступ разрешен ко всем файлам, если ты не указываешь иное, и на сайте может быть только один такой файл.


Зачем нужен файл robots.txt?


Как мы уже сказали, наличие файла не обязательное, но лучше, чтобы он был, потому что:
Если robots.txt — это такое благо, то в чем подвох? Та его, как бы, и нет. Если сайт маленький, с простой структурой, то нет необходимости в исключении чего-то.


Есть готовые файлы или нужно писать самому?


Можно, конечно, написать с нуля свой собственный, а можно взять готовый и переделать под себя. Только, все же, ты должен представлять, что там происходит, какие директивы используются, чтобы правильно все сделать. Ошибки в этом файле могут вызвать проблемы, например, сайт не будет индексироваться, или в сеть попадут личные данные.

А еще, есть онлайн-генераторы. Но будь осторожен, не забудь учесть, что под каждую систему, будь то WordPress, Tilda и пр., нужно создавать собственные файлы, которые отличаются между собой. И после того, как ты получишь файл, обязательно его проверь.


Синтаксис в robots.txt


Давай ка представим, что у тебя есть сайт www.kuku.com, поэтому твой robots.txt живет после косой черты www.kuku.com/ robots.txt. Чтобы не допускать ошибок, обрати внимание на этот список:
Наиболее распространенные ошибки:
User-agent
Это ключевая директива — имя поискового робота, для которого создавался файл. Чтобы обратиться к конкретному роботу, нужно указать его имя. Чтобы открыть доступ всем возможным поисковым роботам, которые попадают на сайт, оставь отметку *. Вот как это выглядит в действии:


Disallow

Запрещает индексацию страниц сайта. Добавь в конце знак /, чтобы весь сайт был заблокирован для индексации, а чтобы заблокировать отдельную страницу или папку, нужно после косой черты указать путь к этой директории.

Allow
Разрешение на сканирование страницы и файлов. 

Noindex
Помимо файла robots.txt, существует несколько способов управления индексацией страниц, например, noindex задается на уровне кода и называется метатегом robots:

Crawl-Delay
Эта директива определяет минимальный период между сканированиями. 

Host
Хост указывает на главное зеркало сайта (сайт-реплику).

Sitemap
Ты можешь оставить ссылки на карты сайта, чтобы облегчить роботу навигацию, сразу указывая на важные части.


Как создать robots.txt?


Так как это текстовый док, ты можешь создать его в обычном Блокноте винды. Как только откроешь текстовый редактор, все, ты уже создаешь robots.txt. После создания нужно сохранить в виде файла .txt. Все просто, создание не должно вызвать проблем даже у новичков. Вот пример такого файла:

В директивах также можно оставлять комментарии для веб-мастеров, которые ставятся после знака #, каждый с новой строки. Они никак не влияют на файл. смысла для роботов, только для людей. Вот пример:


Как проверить созданный файл?


Чтобы проверить действительность файла robots.txt, можешь использовать Google Search Console. Для этого достаточно ввести содержимое текстового файла, указать сайт, и ты увидишь отчет о достоверности файла.


После проверки ты получишь сообщения о всех ошибках и проблемах.
Иногда robots.txt может содержать всякие приколы, которые разработчики добавили, потому что знают, что эти файлы редко встречаются кому-то, кроме ботов. Например, файл robots.txt на YouTube говорит: «Создан в далеком будущем (2000 год) после восстания роботов в середине 90-х, уничтоживших всех людей». 

Файл robots.txt Cloudflare говорит: «Дорогой робот, будь милым».


Давай подведем итоги


Файл robots.txt — это текстовый файл, который находится в корневом каталоге домена. Он используется для управления индексацией страниц, каталогов, подкаталогов ипр. Кроме ты можешь добавить зеркальный сайт и ссылку на карту сайта. Инструкции по индексированию могут относиться ко всем роботам или к каким-то отдельным. Для любого из них можно задать уникальные правила, каждое с новой строки.

Не забывай следовать стандартному набору правил синтаксиса, чтобы создать работающий файл. А потом обязательно его проверь перед добавлением на сайт! robots.txt — это только рекомендация, а не жесткое правило, но, обычно, роботы послушные и не лезут куда не нужно.