Всем привет! Сегодня речь пойдёт о том, как правильно написать robots.txt для сайта с нуля. Текст советую прочесть тем, кто хочет научиться создавать текстовый файл самостоятельно, и рассмотреть принцип его работы изнутри. Информация также пригодится владельцам веб-проектов, которые стремятся продвинуть свой сайт в ТОП.
Чтобы написать статью, я потратила около 37 часов, изучила более 20 источников, посетила несколько форумов веб-мастеров. Поэтому каждое слово неоднократно проверено и перепроверено.
Итак, начнем. Чтобы ввести вас в тему и дать общее представление о robots.txt, предлагаю по традиции обратиться к ассоциациям. Представьте, что вы владелец дома, и, как водится в частном секторе, к вам постоянно кто-то из соседей приходит в гости. Как вы можете поступить? Вообще не открывать дверь никому или впускать некоторых, которые более симпатичны. При этом вы можете предоставить в распоряжение гостей весь дом или только отдельные комнаты, закрыв все личные апартаменты.
По такому принципу и работает robots.txt: что-то для кого-то открывает, а куда-то кого-то не пускает. Подробности читайте дальше в статье.
Robots.txt: что значит и как работает
Знакомство с индексным файлом логично начать с объяснения термина.
Robots.txt – текстовый документ, который говорит поисковикам, на какие данные и страницы сайта обращать внимание (индексировать, обрабатывать), а на какие нет. Его еще называют «стандартом/протоколом исключений для роботов». Он действует для протоколов https, http и FTP, использует кодировку UTF-8 Unicode.
Популярная поисковая система Google придерживаются этих стандартов. Хотя, стоит отметить, что Гугл воспринимает их, как «рекомендации», а не как «команду». То есть, как я понимаю, хочу придерживаюсь, хочу — нет.
Где находится файл robots.txt? Его размещают в корневом каталоге веб-проекта. Визуально он выглядит так:
Принцип работы robots.txt
Говоря простыми словами, наличие robots.txt помогает установить диалог между веб-проектом и поисковыми системами (как переводчик на переговорах). При этом владелец ресурса сам решает, куда открыть доступ и куда запретить вход.
Таким образом, после сканирования индексного файла, развитие событий идет по одному из 3-х сценариев, т.е. поисковики получают:
- полный доступ ко всему веб-ресурсу;
- частичный пропуск, т.е. только к разрешенным страницам и данным;
- абсолютный запрет на вход, где сайт полностью закрыт для обработки.
Чтобы показать, как проходит индексация веб-проекта с robots.txt и без него, сделала инфографику.
Зачем нужен robots.txt?
Чтобы понять важность данного файла, нужно знать принцип работы поисковых систем. Итак, как же они действуют?
Робот поисковика заходит на сайт и первым делом ищет robots.txt. Если его нет или он составлен неправильно, то поисковая система начинает «руководить парадом» самостоятельно. То есть сканирует все подряд: и нужное, и ненужное. При таком подходе обработка веб-ресурса затягивается надолго и при этом не факт, что важные страницы будут первыми в очереди. Зачем такие сложности?
Кроме того, за 1 посещение роботы обрабатывают определенное число ресурсов. Какой из этого следует вывод? Меньше страниц для сканирования, больше проиндексированных и, следовательно, больше трафик. Быстрая индексация также помогает защитить новый контент и отследить, как те или иные мероприятия повлияли на позиции в выдаче.
5 основных директив для написания robots.txt
Прежде чем начать создавать файл robots.txt, нужно ознакомиться с основными командами (директивами), которые понадобятся для написания списка запретов.
Есть 5 базовых команд:
USER-AGENT
Указывает, для какого поисковика предназначаются команды, которые следуют после нее. Можно использовать символ «*» и тогда указания будут касаться всех поисковых систем. С этой директивы начинается любой индексный файл. Если она не прописана, поисковый робот считает, что все двери для него открыты.
Например:
User-agent: Google – команды для Гугл
User-agent: * – команды для всех поисковиков
Обратите внимание, если робот обнаружил название своего поисковика после директивы User-agent, он проигнорирует все указания из раздела «User-agent: *».
Важно отметить, что поисковые системы имеют несколько роботов, для каждого из которых нужно прописывать команды отдельно.
Рассмотрим базовые работы самого популярного поисковика Гугл:
Google:
- Googlebot – основной робот поисковика;
- Googlebot-Image – сканирует изображения;
- Googlebot-Video – проверяет видеофайлы;
- Googlebot-Mobile – обрабатывает страницы для мобильных гаджетов;
- Adsbot-Google – проверяет качество рекламы на ресурсах для ПК;
- Googlebot-News – ищет страницы, чтобы добавить в Гугл Новости.
Запомните, при написании файла robots.txt секции для разных ботов нужно разделять 1 пустой строкой.
В качестве памятки:
DISALLOW и ALLOW
Здесь все просто. Директива Allow разрешает поисковым ботам сканировать ресурс, Disallow – запрещает. Рассмотрим подробнее, как они работают.
Если в файле robots.txt прописать запрещающую команду Disallow или Allow, то можно:
- закрыть/открыть доступ роботов ко всему сайту, используя слэш;
Disallow: /
Allow: /
- запретить/разрешить сканирование определенных страниц, прописав адрес.
Disallow: /admin/
Allow: /admin/
- открыть/закрыть вход к конкретному файлу, указав путь:
Disallow: /razdel/file
Allow: /razdel/file
- запретить/разрешить обрабатывать документы определенного типа, используя *:
Disallow: /*png*
Allow: /*png*
Обратите внимание, чтобы закрыть/открыть страницы сайта для индексации, после данных директив robots.txt пишется не полный адрес, а лишь та часть, которая идет после домена сайта. Например, для «https://textum.com.ua//admin» запрет будет просто «Disallow: /admin/».
Как видите, все действительно просто. Как в математике: знаешь формулу – решишь задачу.
Чтобы закрепить материал, давайте разберем пример:
User-agent: *
Disallow: /
Allow: / blog/
Allow: / *.gift*
Что мы видим в фрагменте этого robots.txt: доступ открыт для всех поисковых систем, закрытыми для сканирования являются все страницы, кроме одного раздела «blog» и файлов типа «.gift».
Скачивайте картинку ниже, чтобы не забыть:
Что можно закрыть с помощью файла robots.txt и Disallow?
Все, конечно, зависит от пожеланий владельца веб-проекта, но есть несколько общих рекомендаций.
Посредством robots.txt советуют запретить индексацию ресурсов с:
- административной частью (иначе говоря, админку);
- личными данными пользователей;
- неполезным, неактуальным или неуникальным контентом (чек-лист для проверки);
- многоуровневыми формами регистрации, обратной связи, заказа и корзиной;
- тегами, результатами поиска по сайту, фильтрами.
Делаем вывод – в файле robots.txt нужно закрыть те страницы сайта, которые не важны, не нужны или не должны быть показаны пользователям и поисковикам.
Кстати, статья о контенте: «2 вида визуального контента»
SITEMAP
Еще один директив, который должен быть написан в файле robots.txt – Sitemap. Для чего он служит? Чтобы показать поисковым ботам путь к Карте сайта. Разберем вопрос в деталях.
Карта сайта – это файл в формате xml с кодировкой UTF8, который хранится в корневой директории веб-ресурса. Он представляет собой своеобразный каталог с ссылками, что ведут на разные страницы. При составлении Карты важно вносить только те ресурсы, которые нуждаются в индексе, исключая с динамическим URL и тегами.
Основные требования к файлу смотрите ниже:
Как директива Sitemap помогает в индексации?
Вспоминаем принцип работы поисковых ботов: зашли на сайт, откинули закрытые страницы и далее, если нет данной команды, начинают хаотично рыскать по сайту. Так как время на сканирование одного веб-проекта ограничено, робот может так и не дойти до действительно важных ресурсов. Особенно это касается «больших» сайтов, где много страниц и переходов по ссылкам.
Будет интересно прочесть: «Покупка вечных ссылок: 4 шага от хаоса к порядку»
Здесь как раз и приходит на помощь директива Sitemap. Она провожает робота к Карте сайта, где указано, какие ресурсы нужно проиндексировать и какие являются самыми важными, а также как часто должна обновляться информация. Такая индексация 100% более качественная и быстрее в 3,14 раза.
Вот как выглядит готовая Карта сайта (фрагмент):
Как создать Карту сайта?
Идеальный вариант воспользоваться бесплатными онлайн-генераторами.
Вот список протестированных мной сервисов:
- XML-Sitemaps.com. Бесплатно создает Sitemap для сайтов, содержащих до 500 страниц. Время работы – 2-3 минуты. Предлагает скачать файл в формате XML Document. Не требует регистрации. Интерфейс на английском языке.
- mysitemapgeneration. Для бесплатного пакета ограничение – до 500 страниц. Создание Карты сайта занимает всего пару минут. Готовый файл в формате xml отправляется на почту. Сайт русифицирован, простой и понятный. Регистрироваться не нужно.
- Xml Sitemap Generator. Англоязычный ресурс с лимитом до 2000 страниц. Скачать файл можно в нескольких форматах: xml, rss, html, txt. Создание Карты сайта проходит также быстро и без регистрации.
- Majento. Русскоязычный оперативный сайт, не требующий регистрации. Лимиты бесплатного пакета: до 1000 страниц, 5 раз/сутки для одного IP-адреса. Можно определить параметры отчета и установить фильтр на страницы с определенным расширением. Готовую Карту сайта можно скачать в формате xml.
Все сервисы справляются с созданием Sitemap на отлично. Кроме представленных онлайн-генераторов, есть также множество других: Small Seo Tools, Screamingfrog, xSitemap.com, Free Sitemap Generator и др. Выбирайте самый оптимальный для себя и делайте Карты сайта без проблем.
Узнайте также о 5 лучших сервисах для работы копирайтера с текстом
В готовом файле, кроме URL-адресов, вы увидите несколько команд, расшифровать которые поможет следующая картинка:
Карта сайта готова. Что дальше?
Нужно оповестить об этом поисковые системы. Конечно, поисковики со временем сами обнаружат этот файл, но для ускорения процесса лучше сразу показать им путь.
Вот 2 самых простых способа рассказать поисковым ботам о Карте сайта:
- Добавить ссылку на адрес файла, используя панель инструментов вебмастеров от Google. Для Гугл: открываем Google Search Console, нажимаем на «Сканирование», далее на «Файлы Sitemap», вставляем и отправляем адрес.
- Вставить в файл robots.txt ссылку на месторасположение файла Sitemap. Визуально это выглядит так: Sitemap: https://site.com/sitemap.xml
Важный совет в заключении – желательно добавлять Sitemap после каждой публикации новой информации на сайте.
Как еще ускорить индексацию читайте:
«Как разместить и ускорить индексацию статьи? 5 секретов успеха»
Как указать основной сайт для бота Google?
Как было сказано выше, оповестить Гугл об основном веб-проекте можно, настроив 301 редирект.
Кроме этого, для извещения можно использовать Google Webmaster Tools. Здесь все просто. Регистрируемся, переходим в раздел «Настройка», добавляем домен сайта с префиксом www и без, выбираем основной веб-проект и сохраняем.
Как определить главный алиас?
Чтобы выбрать основное зеркало, нужно в строке поиска вбить «site:домен» и «site:wwwдомен» (т.е. с префиксом и без). Где будет больше проиндексированных страниц, тот и главный.
Вот, пример:
Создание robots.txt: пошагово с примерами
Изучив функции всех основных директив, можно смело переходить к написанию индексного документа. Так как это текстовый файл, его можно сделать при помощи обычного Блокнота или другого текстового редактора.
План действий очень простой:
- Открываем текстовый редактор.
- Составляем содержание.
- Сохраняем файл с названием «robots» в формате txt.
- Заливаем готовый документ в корневой каталог.
Если хотите ускорить процесс и при этом минимизировать человеческий фактор, используйте специальные онлайн-сервисы. Например, генераторы от: SEOLIB, PR-CY, Site Spy, CY-PR.com и др. Последний, кстати, очень простой и удобный.
Как проверить корректность индексного файла?
Проверить, правильно ли составлен для сайта файл robots.txt, можно таким способом: Воспользуйтесь вебмастерами от Google. В меню сервисов есть специальные инструменты, которые покажут насколько корректно написан файл: «Заблокированные страницы».
Если вы новичок и сомневаетесь, что настройка файла robots.txt сделана без ошибок, в качестве проверки, посмотрите на примеры уже готовых индексных файлов. Для этого в адресной строке браузера введите название сайта + robots.txt (например, https://www.google.com/robots.txt)
Вот, как это сделала я (обратите внимание, здесь еще прописан Host):
Правильный файл robots.txt: главные фишки и ошибки
Подводя итоги, предлагаю список общих правил и особенностей для составления файла:
- текстовый документ robots.txt должен быть оформлен в кодировке UTF-8 или ASCII;
- название ботов можно писать с заглавной буквы или с маленькой (Google = google);
- после User-agent можно указывать более 1 робота (User-agent: GoogleMedia GoogleImage);
- если бот после User-agent находит свое имя, он уже игнорирует общие команды с «*»;
- вес файла должен быть максимум 500 Кб (по требованиям Гугл);
- сначала нужно прописывать правила для всех роботов, потом для конкретных;
- между набором директив для разных ботов должна быть пустая строчка (Enter);
- звездочка перед названием запрещает индексацию всех документов с этим словом (Disallow:/*secret – закрыты все объекты со словом «secret»);
- слэш «/» нужно ставить вначале и в конце названия (Disallow:/secret/);
- если поставить «/» только вначале, робот будет считать, что команда относится ко всем объектам с
- этим словом (Disallow:/secret – все страницы, содержащие «secret», закрыты);
- все запреты/разрешения относятся к 1 странице/данным и пишутся с новой строчки.
Еще 1 правило для файла robots.txt. Категорически нельзя оставлять пустое поле после директивы. Написали команду, дайте инструкцию. Иначе поисковый бот истолкует инструкцию по-своему и, конечно, неправильно.
Пример оформления:
Вместо вывода
Составили файл, отдохните и перепроверьте еще раз (через сервисы и вручную). А лучше – попросите коллегу изучить его «свежим взглядом». Только многоразовая и внимательная проверка дает гарантию, что файл robots.txt правильный и для индексации поисковиков выбраны все нужные страницы сайта.
Надеюсь, все понятно изложено и материал вам пригодится. Будут вопросы, комментарии или советы – пишите. С удовольствием пообщаюсь. До встречи в следующей статье нашей новой рубрики «Технический аудит под микроскопом».
P.S. Если хотите также детально изучить какой-нибудь другой вопрос, присылайте заявки. И вскоре статья на самую интересную предложенную тему будет на сайте.
Получить практические навыки написания SEO-статей можно на курсе: «Креативный SEO-копирайтинг»:














