Что такое robots.txt?
Это простой текстовый файл в корне сайта, в котором хранится набор правил. Они могут разрешать или ограничивать доступ поисковым роботам к содержимому сайта. Текст состоит как минимум из двух строк – количество зависит только от необходимости разрешить или запретить индексацию страниц. Одна строка включает одно правило.
Из основного, что может делать этот файл:
- Запретить сканирование страниц или ссылок;
- Запретить сканирование содержимого страницы частично или полностью;
- Запретить сканировать страницу каким-то конкретным ботам;
- Управлять частотой сканирования ботами страницы.
Скажем сразу, robots.txt — это не строгий запрет для поисковых ботов, это скорее как пиратский кодекс: список рекомендаций, но чаще всего боты им следуют. Это один из первых аспектов, анализируемых поисковыми роботами. По умолчанию доступ разрешен ко всем файлам, если ты не указываешь иное, и на сайте может быть только один такой файл.
Зачем нужен файл robots.txt?
Как мы уже сказали, наличие файла не обязательное, но лучше, чтобы он был, потому что:
- Если robots.txt нет, все страницы будут проиндексированы случайным образом, а это не есть хорошо для оптимизации сайта. Как вебмастер, ты в курсе, какие страницы вашего веб-сайта желательно проиндексировать, какие должны быть закрытыми, а какие проходят промежуточный период;
- Ты можешь управлять бюджетом, который поисковые системы платят твоему сайту, тем самым увеличивая его для страниц, которые необходимо проиндексировать;
- Ты можешь использовать этот файл, чтобы указать главное зеркало сайта и ссылку на карту сайта.
Если robots.txt — это такое благо, то в чем подвох? Та его, как бы, и нет. Если сайт маленький, с простой структурой, то нет необходимости в исключении чего-то.
Есть готовые файлы или нужно писать самому?
Можно, конечно, написать с нуля свой собственный, а можно взять готовый и переделать под себя. Только, все же, ты должен представлять, что там происходит, какие директивы используются, чтобы правильно все сделать. Ошибки в этом файле могут вызвать проблемы, например, сайт не будет индексироваться, или в сеть попадут личные данные.
А еще, есть онлайн-генераторы. Но будь осторожен, не забудь учесть, что под каждую систему, будь то WordPress, Tilda и пр., нужно создавать собственные файлы, которые отличаются между собой. И после того, как ты получишь файл, обязательно его проверь.
Синтаксис в robots.txt
Давай ка представим, что у тебя есть сайт www.kuku.com, поэтому твой robots.txt живет после косой черты www.kuku.com/ robots.txt. Чтобы не допускать ошибок, обрати внимание на этот список:
- имя — robots, формат — .txt;
- файл robots.txt чувствителен к регистру;
- одна строка — одна директива;
- файл должен находиться по адресу домен/robots.txt
- никаких пробелов между строками или в начале строк;
- '/' используется перед каждым каталогом;
- только английская раскладка;
- один параметр на директиву: разрешить или запретить.
Наиболее распространенные ошибки:
- размер файла превышает 35 КБ;
- опечатки в директивах или ссылках;
- формат, отличный от TXT, или недопустимые символы;
- файл недоступен в заголовке HTTP-запроса.
User-agent
Это ключевая директива — имя поискового робота, для которого создавался файл. Чтобы обратиться к конкретному роботу, нужно указать его имя. Чтобы открыть доступ всем возможным поисковым роботам, которые попадают на сайт, оставь отметку *. Вот как это выглядит в действии:
Disallow
Allow
Разрешение на сканирование страницы и файлов.
Noindex
Помимо файла robots.txt, существует несколько способов управления индексацией страниц, например, noindex задается на уровне кода и называется метатегом robots:
Crawl-Delay
Эта директива определяет минимальный период между сканированиями.
Host
Хост указывает на главное зеркало сайта (сайт-реплику).
Sitemap
Ты можешь оставить ссылки на карты сайта, чтобы облегчить роботу навигацию, сразу указывая на важные части.
Как создать robots.txt?
Так как это текстовый док, ты можешь создать его в обычном Блокноте винды. Как только откроешь текстовый редактор, все, ты уже создаешь robots.txt. После создания нужно сохранить в виде файла .txt. Все просто, создание не должно вызвать проблем даже у новичков. Вот пример такого файла:
В директивах также можно оставлять комментарии для веб-мастеров, которые ставятся после знака #, каждый с новой строки. Они никак не влияют на файл. смысла для роботов, только для людей. Вот пример:
Как проверить созданный файл?
Чтобы проверить действительность файла robots.txt, можешь использовать Google Search Console. Для этого достаточно ввести содержимое текстового файла, указать сайт, и ты увидишь отчет о достоверности файла.
После проверки ты получишь сообщения о всех ошибках и проблемах.
Иногда robots.txt может содержать всякие приколы, которые разработчики добавили, потому что знают, что эти файлы редко встречаются кому-то, кроме ботов. Например, файл robots.txt на YouTube говорит: «Создан в далеком будущем (2000 год) после восстания роботов в середине 90-х, уничтоживших всех людей».
Файл robots.txt Cloudflare говорит: «Дорогой робот, будь милым».
Давай подведем итоги
Файл robots.txt — это текстовый файл, который находится в корневом каталоге домена. Он используется для управления индексацией страниц, каталогов, подкаталогов ипр. Кроме ты можешь добавить зеркальный сайт и ссылку на карту сайта. Инструкции по индексированию могут относиться ко всем роботам или к каким-то отдельным. Для любого из них можно задать уникальные правила, каждое с новой строки.
Не забывай следовать стандартному набору правил синтаксиса, чтобы создать работающий файл. А потом обязательно его проверь перед добавлением на сайт! robots.txt — это только рекомендация, а не жесткое правило, но, обычно, роботы послушные и не лезут куда не нужно.