Створити Robots.txt - просто, як 2х2

Усім привіт! Почну з важливого оголошення. У нашому блозі запускається проєкт «Технічний аудит під мікроскопом» і цей матеріал відкриває цикл статей, присвячених цій темі. Про що піде мова сьогодні? Про те, як правильно написати robots.txt для сайту з нуля.

Текст раджу прочитати тим, хто хоче навчитися створювати текстовий файл самостійно, і розглянути принцип його роботи зсередини. Інформація також стане в пригоді власникам веб-проєктів, які прагнуть просунути свій сайт у ТОП.

У статті нижче «під мікроскопом» розглянуто такі питання:

Що таке robots.txt?
Навіщо потрібен індексний файл?
Як прописати директиву User-agent, Allow Disallow, Sitemap і Host?
Як скласти правильний robots.txt і перевірити (інструкція)?
Які фішки потрібно знати для створення правильного robots.txt?

Щоб написати статтю, я витратила близько 37 годин, вивчила понад 20 джерел, відвідала кілька форумів веб-майстрів. Тому кожне слово неодноразово перевірено і перевірено ще раз.

Отже, почнемо. Щоб ввести вас у тему і дати загальне уявлення про robots.txt, пропоную за традицією звернутися до асоціацій. Уявіть, що ви власник будинку, і, як водиться в приватному секторі, до вас постійно хтось із сусідів приходить у гості. Як ви можете вчинити? Взагалі не відчиняти двері нікому або впускати деяких, які симпатичніші. При цьому ви можете надати в розпорядження гостей увесь будинок або тільки окремі кімнати, закривши всі особисті апартаменти.

За таким принципом і працює robots.txt: щось для когось відкриває, а кудись когось не пускає. Подробиці читайте далі в статті.

Robots.txt: що означає і як працює

Знайомство з індексним файлом логічно почати з пояснення терміна.

Robots.txt — текстовий документ, який говорить пошуковикам, на які дані та сторінки сайту звертати увагу (індексувати, обробляти), а на які ні. Його ще називають «стандартом/протоколом винятків для роботів». Він діє для протоколів https, http і FTP, використовує кодування UTF-8 Unicode.

Популярна пошукова система Google дотримуються цих стандартів. Хоча, варто зазначити, що Гугл сприймає їх, як «рекомендації», а не як «команду». Тобто, як я розумію, хочу дотримуюся, хочу — ні.

Де знаходиться файл robots.txt? Його розміщують у кореневому каталозі веб-проєкту. Візуально він має такий вигляд:

https://site.com.ua/robots.txt.

Принцип роботи robots.txt

Говорячи простими словами, наявність robots.txt допомагає встановити діалог між веб-проєктом і пошуковими системами (як перекладач на переговорах). При цьому власник ресурсу сам вирішує, куди відкрити доступ і куди заборонити вхід.

Таким чином, після сканування індексного файлу, розвиток подій відбувається за одним із 3-х сценаріїв, тобто пошуковики отримують:

повний доступ до всього веб-ресурсу;
частковий пропуск, тобто тільки до дозволених сторінок і даних;
абсолютна заборона на вхід, де сайт повністю закритий для обробки.

Щоб показати, як проходить індексація веб-проєкту з robots.txt і без нього, зробила інфографіку.

Индексация сайта с файлом robots.txt и без него

Навіщо потрібен robots.txt?

Щоб зрозуміти важливість цього файлу, потрібно знати принцип роботи пошукових систем. Отже, як же вони діють?

Робот пошуковика заходить на сайт і насамперед шукає robots.txt. Якщо його немає або він складений неправильно, то пошукова система починає скерувати парадом» самостійно. Тобто сканує все підряд: і потрібне, і не потрібне. За такого підходу опрацювання веб-ресурсу затягується надовго і при цьому не факт, що важливі сторінки будуть першими в черзі. Навіщо такі складнощі?

Крім того, за 1 відвідування роботи обробляють певну кількість ресурсів. Який із цього випливає висновок? Менше сторінок для сканування, більше проіндексованих і, отже, більше трафіку. Швидка індексація також допомагає захистити новий контент і відстежити, як ті чи інші заходи вплинули на позиції у видачі.

5 основних директив для написання robots.txt

Перш ніж почати створювати файл robots.txt, потрібно ознайомитися з основними командами (директивами), які знадобляться для написання списку заборон.

Є 5 базових команд:

USER-AGENT

Вказує, для якої пошукової системи призначаються команди, які йдуть після неї. Можна використовувати символ «*» і тоді вказівки стосуватимуться всіх пошукових систем. З цієї директивии починається будь-який індексний файл. Якщо її не прописано, пошуковий робот вважає, що всі двері для нього відкриті.

Наприклад:

User-agent: Google — команда для Гугл

User-agent: * — команда для всіх пошуковиків

Зверніть увагу, якщо робот виявив назву свого пошуковика після директиви User-agent, він проігнорує всі вказівки з розділу «User-agent: *».

Важливо зазначити, що пошукові системи мають кілька роботів, для кожного з яких потрібно прописувати команди окремо.

Розглянемо базові роботи найпопулярнішого пошуковика Гугл:

Google:

Googlebot — основний робот пошуковика;
Googlebot-Image — сканує зображення;
Googlebot-Video — перевіряє відеофайли;
Googlebot-Mobile — обробляє сторінки для мобільних гаджетів;
Adsbot-Google — перевіряє якість реклами на ресурсах для ПК;
Googlebot-News — шукає сторінки, щоб додати в Гугл Новини.

Запам’ятайте, під час написання файлу robots.txt секції для різних ботів потрібно розділяти 1 порожнім рядком.

Як пам’ятка:

DISALLOW і ALLOW

Тут усе просто. Директива Allow дозволяє пошуковим ботам сканувати ресурс, Disallow — забороняє. Розглянемо докладніше, як вони працюють.

Якщо у файлі robots.txt прописати забороняючу команду Disallow або Allow, то можна:

закрити/відкрити доступ роботів до всього сайту, використовуючи слеш;

Disallow: /

Allow: /

заборонити/дозволити сканування певних сторінок, прописавши адресу;

Disallow: /admin/

Allow: /admin/

відкрити/закрити вхід до конкретного файлу, вказавши шлях;

Disallow: /razdel/file

Allow: /razdel/file

заборонити/дозволити обробляти документи певного типу, використовуючи *

Disallow: /*png*

Allow: /*png*

Зверніть увагу, щоб закрити/відкрити сторінки сайту для індексації, після цих директив robots.txt пишеться не повна адреса, а лише та частина, що йде після домену сайту. Наприклад, для «https://textum.com.ua/admin» заборона буде просто «Disallow: /admin/».

Як бачите, все дійсно просто. Як у математиці: знаєш формулу — розв’яжеш задачу.

Щоб закріпити матеріал, давайте розберемо приклад:

User-agent: *

Disallow: /

Allow: / blog/

Allow: / *.gift*

Що ми бачимо у фрагменті цього robots.txt: доступ відкритий для всіх пошукових систем, закритими для сканування є всі сторінки, окрім одного розділу «blog» і файлів типу «.gift».

Завантажуйте картинку нижче, щоб не забути:

Директива Disallow и Allow для robots.txt

Що можна закрити за допомогою файлу robots.txt і Disallow?

Усе, звісно, залежить від побажань власника веб-проєкту, але є кілька загальних рекомендацій.

За допомогою robots.txt радять заборонити індексацію ресурсів з:

адміністративною частиною (інакше кажучи, адмінкою);
особистими даними користувачів;
некорисним, неактуальним або неунікальним контентом (чек-лист для перевірки);
багаторівневими формами реєстрації, зворотного зв’язку, замовлення і кошиком;
тегами, результатами пошуку по сайту, фільтрами.

Робимо висновок — у файлі robots.txt потрібно закрити ті сторінки сайту, які не важливі, не потрібні або не повинні бути показані користувачам і пошуковикам.

До речі, стаття про контент: «2 види візуального контенту»

SITEMAP

Ще один директив, який має бути написаний у файлі robots.txt — Sitemap. Для чого він служить? Щоб показати пошуковим ботам шлях до Карти сайту. Розберемо питання в деталях

Карта сайту — це файл у форматі xml з кодуванням UTF8, який зберігається в кореневій директорії веб-ресурсу. Він являє собою своєрідний каталог із посиланнями, що ведуть на різні сторінки. Під час складання Карти важливо вносити тільки ті ресурси, які потребують індексу, виключаючи з динамічним URL і тегами.

Основні вимоги до файлу дивіться нижче:

Як директива Sitemap допомагає в індексації?

Згадуємо принцип роботи пошукових ботів: зайшли на сайт, відкинули закриті сторінки і далі, якщо немає цієї команди, починають хаотично нишпорити сайтом. Оскільки час на сканування одного веб-проєкту обмежений, робот може так і не дійти до дійсно важливих ресурсів. Особливо це стосується «великих» сайтів, де багато сторінок і переходів за посиланнями.

Буде цікаво прочитати: «Купівля вічних посилань: 4 кроки від хаосу до порядку»

Тут якраз і приходить на допомогу директива Sitemap. Вона проводжає робота до Карти сайту, де вказано, які ресурси потрібно проіндексувати і які є найважливішими, а також як часто має оновлюватись інформація. Така індексація 100% якісніша та швидша у 3,14 раза.

Ось який вигляд має готова Карта сайту (фрагмент):

Як створити Карту сайту?

Ідеальний варіант скористатися безкоштовними онлайн-генераторами.

Ідеальний варіант скористатися безкоштовними онлайн-генераторами:

XML-Sitemaps.com. Безкоштовно створює Sitemap для сайтів, що містять до 500 сторінок. Час роботи — 2-3 хвилини. Пропонує завантажити файл у форматі XML Document. Не вимагає реєстрації. Інтерфейс англійською мовою.
mysitemapgeneration. Для безкоштовного пакета обмеження — до 500 сторінок. Створення Карти сайту займає всього кілька хвилин. Готовий файл у форматі xml надсилається на пошту. Сайт простий і зрозумілий. Реєструватися не потрібно.
Xml Sitemap Generator. Англомовний ресурс із лімітом до 2000 сторінок. Завантажити файл можна в декількох форматах: xml, rss, html, txt. Створення карти сайту проходить також швидко і без реєстрації.

Усі сервіси справляються зі створенням Sitemap на відмінно. Крім представлених онлайн-генераторів, є також безліч інших: Small Seo Tools, Screamingfrog, xSitemap.com, Free Sitemap Generator тощо. Обирайте найоптимальніший для себе і робіть Карти сайту без проблем.

Дізнайтеся також про «5 найкращих сервісів для роботи копірайтера з текстом»

У готовому файлі, крім URL-адрес, ви побачите кілька команд, розшифрувати які допоможе наступна картинка:

Карта сайту готова. Що далі?

Потрібно сповістити про це пошукові системи. Звісно, пошуковики з часом самі виявлять цей файл, але для прискорення процесу краще відразу показати їм шлях.

Ось 2 найпростіших способи розповісти пошуковим ботам про карту сайту:

Додати посилання на адресу файлу, використовуючи панель інструментів вебмайстрів від Google. Для Гугл: відкриваємо Google Search Console, натискаємо на «Сканування», далі на «Файли Sitemap», вставляємо і відправляємо адресу.
Вставити у файл robots.txt посилання на місце розташування файлу Sitemap. Візуально це виглядає так: Sitemap: http://site.com/sitemap.xml

Важлива порада на завершення — бажано додавати Sitemap після кожної публікації нової інформації на сайті.

Як ще прискорити індексацію читайте:

«Як розмістити і прискорити індексацію статті? 5 секретів успіху»

Як вказати основний сайт для бота Google?

Як було сказано вище, повідомити Google про основний веб-проєкт можна, налаштувавши 301 редирект. Крім цього, для сповіщення можна використовувати Google Webmaster Tools. Тут усе просто. Реєструємось, переходимо в розділ «Налаштування», додаємо домен сайту з префіксом www і без, вибираємо основний веб-проєкт та зберігаємо.

Як визначити головний аліас?

Щоб вибрати основне дзеркало, потрібно в рядку пошуку вбити «site:домен» і «site:wwwдомен» (тобто з префіксом і без). Де буде більше проіндексованих сторінок, те й головне.

Ось, приклад:

Створення robots.txt: покроково з прикладами

Вивчивши функції всіх основних директив, можна сміливо переходити до написання індексного документа. Оскільки це текстовий файл, його можна зробити за допомогою звичайного Блокнота або іншого текстового редактора.

План дій дуже простий:

Відкриваємо текстовий редактор.
Складаємо зміст.
Зберігаємо файл із назвою «robots» у форматі txt.
Заливаємо готовий документ у кореневий каталог.

Якщо хочете прискорити процес і при цьому мінімізувати людський фактор, використовуйте спеціальні онлайн-сервіси.

Як перевірити коректність індексного файлу?

Перевірити, чи правильно складено для сайту файл robots.txt, можна таким способом: Скористайтеся вебмайстрами від Google. У меню сервісів є спеціальні інструменти, які покажуть наскільки коректно написаний файл: «Заблоковані сторінки».

Якщо ви новачок і сумніваєтеся, що налаштування файлу robots.txt зроблено без помилок, як перевірку, подивіться на приклади вже готових індексних файлів. Для цього в адресному рядку браузера введіть назву сайту + robots.txt (наприклад, https://www.google.com/robots.txt)

Ось, як це зробила я (зверніть увагу, тут ще прописаний Host):

Правильний файл robots.txt: головні фішки та помилки

Підбиваючи підсумки, пропоную список загальних правил і особливостей для складання файлу:

текстовий документ robots.txt має бути оформлений у кодуванні UTF-8 або ASCII;
назву ботів можна писати з великої літери або з маленької (Google= google);
після User-agent можна вказувати більше 1 робота (User-agent: GoogleMedia GoogleImage);
якщо бот після User-agent знаходить своє ім’я, він уже ігнорує загальні команди з «*»;
вага файлу має бути максимум 500 Кб (за вимогами Гугл);
спочатку потрібно прописувати правила для всіх роботів, потім для конкретних;
між набором директив для різних ботів має бути порожній рядок (Enter);
зірочка перед назвою забороняє індексацію всіх документів із цим словом (Disallow:/*secret — закрито всі об’єкти зі словом «secret»);
слеш «/» потрібно ставити на початку і в кінці назви (Disallow:/secret/);
якщо поставити «/» тільки спочатку, робот вважатиме, що команда стосується всіх об’єктів із цим словом (Disallow:/secret — усі сторінки, що містять «secret», закриті);
усі заборони/дозволи належать до 1 сторінки/даних і пишуться з нового рядка.

Ще 1 правило для файлу robots.txt. Категорично не можна залишати порожнє поле після директиви. Написали команду, дайте інструкцію. Інакше пошуковий бот витлумачить інструкцію по-своєму і, звісно, неправильно.

Приклад оформлення:

Замість висновку

Склали файл, відпочиньте і перевірте ще раз (через сервіси і вручну). А краще — попросіть колегу вивчити його «свіжим поглядом». Тільки багаторазова й уважна перевірка дає гарантію, що файл robots.txt правильний і для індексації пошукових систем обрано всі потрібні сторінки сайту.

Сподіваюся, все зрозуміло викладено і матеріал стане вам у пригоді. Будуть запитання, коментарі чи поради — пишіть. Із задоволенням поспілкуюся. До зустрічі в наступній статті нашої нової рубрики «Технічний аудит під мікроскопом».

P.S. Якщо хочете також детально вивчити якесь інше питання, надсилайте заявки. І незабаром стаття на найцікавішу запропоновану тему буде на сайті.