RSS icon Huffson Group
2к+
Аналитика 0 3 526 20 июн, 2022

robots.txt: зачем нужен и как его создать?

Хола, котаны! В каждой поисковой системе есть куча ботов для индексации сайтов. Их основная задача — сканировать сеть и индексировать контент, чтобы потом предоставить его пользователям. Как правило, начинают сканирование с файла robots.txt. Это важная фишка сайта. Готов узнать, что это за файл, как его создать? Тогда усаживайся поудобнее, мы начинаем! 
robots.txt: зачем нужен и как его создать?

Что такое robots.txt?


Это простой текстовый файл в корне сайта, в котором хранится набор правил. Они могут разрешать или ограничивать доступ поисковым роботам к содержимому сайта. Текст состоит как минимум из двух строк  – количество зависит только от необходимости разрешить или запретить индексацию страниц. Одна строка включает одно правило. 

Из основного, что может делать этот файл: 
  • Запретить сканирование страниц или ссылок;
  • Запретить сканирование содержимого страницы частично или полностью;
  • Запретить сканировать страницу каким-то конкретным ботам;
  • Управлять частотой сканирования ботами страницы.

robots.txt: зачем нужен и как его создать?
Скажем сразу, robots.txt — это не строгий запрет для поисковых ботов, это скорее как пиратский кодекс: список рекомендаций, но чаще всего боты им следуют. Это один из первых аспектов, анализируемых поисковыми роботами. По умолчанию доступ разрешен ко всем файлам, если ты не указываешь иное, и на сайте может быть только один такой файл.


Зачем нужен файл robots.txt?


Как мы уже сказали, наличие файла не обязательное, но лучше, чтобы он был, потому что:
  • Если robots.txt нет, все страницы будут проиндексированы случайным образом, а это не есть хорошо для оптимизации сайта. Как вебмастер, ты в курсе, какие страницы вашего веб-сайта желательно проиндексировать, какие должны быть закрытыми, а какие проходят промежуточный период;
  • Ты можешь управлять бюджетом, который поисковые системы платят твоему сайту, тем самым увеличивая его для страниц, которые необходимо проиндексировать;
  • Ты можешь использовать этот файл, чтобы указать главное зеркало сайта и ссылку на карту сайта. 

Если robots.txt — это такое благо, то в чем подвох? Та его, как бы, и нет. Если сайт маленький, с простой структурой, то нет необходимости в исключении чего-то.


Есть готовые файлы или нужно писать самому?


Можно, конечно, написать с нуля свой собственный, а можно взять готовый и переделать под себя. Только, все же, ты должен представлять, что там происходит, какие директивы используются, чтобы правильно все сделать. Ошибки в этом файле могут вызвать проблемы, например, сайт не будет индексироваться, или в сеть попадут личные данные.

А еще, есть онлайн-генераторы. Но будь осторожен, не забудь учесть, что под каждую систему, будь то WordPress, Tilda и пр., нужно создавать собственные файлы, которые отличаются между собой. И после того, как ты получишь файл, обязательно его проверь.


Синтаксис в robots.txt


Давай ка представим, что у тебя есть сайт www.kuku.com, поэтому твой robots.txt живет после косой черты www.kuku.com/ robots.txt. Чтобы не допускать ошибок, обрати внимание на этот список:
  • имя — robots, формат — .txt;
  • файл robots.txt чувствителен к регистру;
  • одна строка — одна директива;
  • файл должен находиться по адресу домен/robots.txt
  • никаких пробелов между строками или в начале строк;
  • '/' используется перед каждым каталогом;
  • только английская раскладка;
  • один параметр на директиву: разрешить или запретить.

Наиболее распространенные ошибки:
  • размер файла превышает 35 КБ;
  • опечатки в директивах или ссылках;
  • формат, отличный от TXT, или недопустимые символы;
  • файл недоступен в заголовке HTTP-запроса.

User-agent
Это ключевая директива — имя поискового робота, для которого создавался файл. Чтобы обратиться к конкретному роботу, нужно указать его имя. Чтобы открыть доступ всем возможным поисковым роботам, которые попадают на сайт, оставь отметку *. Вот как это выглядит в действии:
robots.txt: зачем нужен и как его создать?


Disallow

Запрещает индексацию страниц сайта. Добавь в конце знак /, чтобы весь сайт был заблокирован для индексации, а чтобы заблокировать отдельную страницу или папку, нужно после косой черты указать путь к этой директории.
robots.txt: зачем нужен и как его создать?
Allow
Разрешение на сканирование страницы и файлов. 
robots.txt: зачем нужен и как его создать?
Noindex
Помимо файла robots.txt, существует несколько способов управления индексацией страниц, например, noindex задается на уровне кода и называется метатегом robots:
robots.txt: зачем нужен и как его создать?
Crawl-Delay
Эта директива определяет минимальный период между сканированиями. 
robots.txt: зачем нужен и как его создать?
Host
Хост указывает на главное зеркало сайта (сайт-реплику).
robots.txt: зачем нужен и как его создать?
Sitemap
Ты можешь оставить ссылки на карты сайта, чтобы облегчить роботу навигацию, сразу указывая на важные части.

robots.txt: зачем нужен и как его создать?
Как создать robots.txt?


Так как это текстовый док, ты можешь создать его в обычном Блокноте винды. Как только откроешь текстовый редактор, все, ты уже создаешь robots.txt. После создания нужно сохранить в виде файла .txt. Все просто, создание не должно вызвать проблем даже у новичков. Вот пример такого файла:
robots.txt: зачем нужен и как его создать?
В директивах также можно оставлять комментарии для веб-мастеров, которые ставятся после знака #, каждый с новой строки. Они никак не влияют на файл. смысла для роботов, только для людей. Вот пример:
robots.txt: зачем нужен и как его создать?


Как проверить созданный файл?


Чтобы проверить действительность файла robots.txt, можешь использовать Google Search Console. Для этого достаточно ввести содержимое текстового файла, указать сайт, и ты увидишь отчет о достоверности файла.

robots.txt: зачем нужен и как его создать?
После проверки ты получишь сообщения о всех ошибках и проблемах.
Иногда robots.txt может содержать всякие приколы, которые разработчики добавили, потому что знают, что эти файлы редко встречаются кому-то, кроме ботов. Например, файл robots.txt на YouTube говорит: «Создан в далеком будущем (2000 год) после восстания роботов в середине 90-х, уничтоживших всех людей». 
robots.txt: зачем нужен и как его создать?
Файл robots.txt Cloudflare говорит: «Дорогой робот, будь милым».
robots.txt: зачем нужен и как его создать?


Давай подведем итоги


Файл robots.txt — это текстовый файл, который находится в корневом каталоге домена. Он используется для управления индексацией страниц, каталогов, подкаталогов ипр. Кроме ты можешь добавить зеркальный сайт и ссылку на карту сайта. Инструкции по индексированию могут относиться ко всем роботам или к каким-то отдельным. Для любого из них можно задать уникальные правила, каждое с новой строки.

Не забывай следовать стандартному набору правил синтаксиса, чтобы создать работающий файл. А потом обязательно его проверь перед добавлением на сайт! robots.txt — это только рекомендация, а не жесткое правило, но, обычно, роботы послушные и не лезут куда не нужно.
Принеси в жертву лайк и шеринг во славу бога Рандома, и профитный конверт будет сопутствовать тебе всю неделю!

Трафик, котики, завод!

Комментарии