Хола, котаны! В каждой поисковой системе есть куча ботов для индексации сайтов. Их основная задача — сканировать сеть и индексировать контент, чтобы потом предоставить его пользователям. Как правило, начинают сканирование с файла robots.txt. Это важная фишка сайта. Готов узнать, что это за файл, как его создать? Тогда усаживайся поудобнее, мы начинаем!
Это простой текстовый файл в корне сайта, в котором хранится набор правил. Они могут разрешать или ограничивать доступ поисковым роботам к содержимому сайта. Текст состоит как минимум из двух строк – количество зависит только от необходимости разрешить или запретить индексацию страниц. Одна строка включает одно правило.
Из основного, что может делать этот файл:
Запретить сканирование страниц или ссылок;
Запретить сканирование содержимого страницы частично или полностью;
Скажем сразу, robots.txt — это не строгий запрет для поисковых ботов, это скорее как пиратский кодекс: список рекомендаций, но чаще всего боты им следуют. Это один из первых аспектов, анализируемых поисковыми роботами. По умолчанию доступ разрешен ко всем файлам, если ты не указываешь иное, и на сайте может быть только один такой файл.
Зачем нужен файл robots.txt?
Как мы уже сказали, наличие файла не обязательное, но лучше, чтобы он был, потому что:
Если robots.txt нет, все страницы будут проиндексированы случайным образом, а это не есть хорошо для оптимизации сайта. Как вебмастер, ты в курсе, какие страницы вашего веб-сайта желательно проиндексировать, какие должны быть закрытыми, а какие проходят промежуточный период;
Ты можешь управлять бюджетом, который поисковые системы платят твоему сайту, тем самым увеличивая его для страниц, которые необходимо проиндексировать;
Ты можешь использовать этот файл, чтобы указать главное зеркало сайта и ссылку на карту сайта.
Если robots.txt — это такое благо, то в чем подвох? Та его, как бы, и нет. Если сайт маленький, с простой структурой, то нет необходимости в исключении чего-то.
Есть готовые файлы или нужно писать самому?
Можно, конечно, написать с нуля свой собственный, а можно взять готовый и переделать под себя. Только, все же, ты должен представлять, что там происходит, какие директивы используются, чтобы правильно все сделать. Ошибки в этом файле могут вызвать проблемы, например, сайт не будет индексироваться, или в сеть попадут личные данные.
А еще, есть онлайн-генераторы. Но будь осторожен, не забудь учесть, что под каждую систему, будь то WordPress, Tilda и пр., нужно создавать собственные файлы, которые отличаются между собой. И после того, как ты получишь файл, обязательно его проверь.
Синтаксис в robots.txt
Давай ка представим, что у тебя есть сайт www.kuku.com, поэтому твой robots.txt живет после косой черты www.kuku.com/ robots.txt. Чтобы не допускать ошибок, обрати внимание на этот список:
имя — robots, формат — .txt;
файл robots.txt чувствителен к регистру;
одна строка — одна директива;
файл должен находиться по адресу домен/robots.txt
никаких пробелов между строками или в начале строк;
'/' используется перед каждым каталогом;
только английская раскладка;
один параметр на директиву: разрешить или запретить.
Наиболее распространенные ошибки:
размер файла превышает 35 КБ;
опечатки в директивах или ссылках;
формат, отличный от TXT, или недопустимые символы;
файл недоступен в заголовке HTTP-запроса.
User-agent
Это ключевая директива — имя поискового робота, для которого создавался файл. Чтобы обратиться к конкретному роботу, нужно указать его имя. Чтобы открыть доступ всем возможным поисковым роботам, которые попадают на сайт, оставь отметку *. Вот как это выглядит в действии:
Disallow
Запрещает индексацию страниц сайта. Добавь в конце знак /, чтобы весь сайт был заблокирован для индексации, а чтобы заблокировать отдельную страницу или папку, нужно после косой черты указать путь к этой директории.
Allow
Разрешение на сканирование страницы и файлов. Noindex
Помимо файла robots.txt, существует несколько способов управления индексацией страниц, например, noindex задается на уровне кода и называется метатегом robots: Crawl-Delay
Эта директива определяет минимальный период между сканированиями. Host
Хост указывает на главное зеркало сайта (сайт-реплику). Sitemap
Ты можешь оставить ссылки на карты сайта, чтобы облегчить роботу навигацию, сразу указывая на важные части.
Как создать robots.txt?
Так как это текстовый док, ты можешь создать его в обычном Блокноте винды. Как только откроешь текстовый редактор, все, ты уже создаешь robots.txt. После создания нужно сохранить в виде файла .txt. Все просто, создание не должно вызвать проблем даже у новичков. Вот пример такого файла:
В директивах также можно оставлять комментарии для веб-мастеров, которые ставятся после знака #, каждый с новой строки. Они никак не влияют на файл. смысла для роботов, только для людей. Вот пример:
Как проверить созданный файл?
Чтобы проверить действительность файла robots.txt, можешь использовать Google Search Console. Для этого достаточно ввести содержимое текстового файла, указать сайт, и ты увидишь отчет о достоверности файла.
После проверки ты получишь сообщения о всех ошибках и проблемах.
Иногда robots.txt может содержать всякие приколы, которые разработчики добавили, потому что знают, что эти файлы редко встречаются кому-то, кроме ботов. Например, файл robots.txt на YouTube говорит: «Создан в далеком будущем (2000 год) после восстания роботов в середине 90-х, уничтоживших всех людей».
Файл robots.txt Cloudflare говорит: «Дорогой робот, будь милым».
Давай подведем итоги
Файл robots.txt — это текстовый файл, который находится в корневом каталоге домена. Он используется для управления индексацией страниц, каталогов, подкаталогов ипр. Кроме ты можешь добавить зеркальный сайт и ссылку на карту сайта. Инструкции по индексированию могут относиться ко всем роботам или к каким-то отдельным. Для любого из них можно задать уникальные правила, каждое с новой строки.
Не забывай следовать стандартному набору правил синтаксиса, чтобы создать работающий файл. А потом обязательно его проверь перед добавлением на сайт! robots.txt — это только рекомендация, а не жесткое правило, но, обычно, роботы послушные и не лезут куда не нужно.