Что такое краулинговый бюджет и почему он так важен

Оптимізатори часто не приділяють належної уваги такій важливій речі, як краулінговий бюджет. Якщо просувається лендінг або невеликий сайт до 10 сторінок, то турбуватися нема про що, але якщо це великий онлайн-магазин, тоді рекомендуємо наш матеріал до прочитання. У цій статті розберемося, що таке краулінговий бюджет, чому він важливий для сайту і що робити, щоб заощадити ліміт і якісно оптимізувати ресурс.

Краулінговий бюджет: що це і чим відрізняється від попиту?

Термін «краулінг» прийшов до нас з англійської мови, де існує у формі «crawling» і з погляду SEO позначає сканування та індексацію пошуковим ботом сторінок веб-майданчика для подальшого ранжування у видачі за запитами користувачів. А краулінговий бюджет — це ліміт сканування сторінок, який виділяє пошукова система для кожного сайту. Тобто, це обмежена кількість контенту, що індексується роботом у певний часовий відрізок;

Радимо прочитати «статтю» про те, що таке індексація та як її прискорити.

Термін «краулінг» було запроваджено Google, тому коли оптимізатори говорять про краулінговий бюджет, то насамперед мають на увазі діяльність пошукового робота — Googlebot.

Пошуковик визначає для кожного сайту певний ліміт сканування. Бюджет залежить від популярності ресурсу і доступності сервера для роботи бота.

Процесс попадания страниц сайта в индекс поисковой выдачи

Отже, чому так важливо SEO-оптимізатору знати краулінговий бюджет сайту? Якщо пошуковий краулер під час сканування не зможе проіндексувати певні сторінки ресурсу, то вони просто випадуть з індексу. А саме там може міститися важливий контент, який приверне клієнтів на сайт. До того ж до видачі можуть потрапити «сміттєві» сторінки, які не приносять бізнесу жодного профіту.

Подивитися краулінговий бюджет можна в «Google Search Console». Для цього в меню потрібно відкрити вкладку «Статистика сканування».

Вам відкриється нова сторінка з графіками. Потрібна інформація знаходиться на малюнку під назвою «Кількість сканованих сторінок на день». Саме це число бот може проіндексувати на добу, тобто краулінговий бюджет сайту. На скріні нижче це 219 сторінок.

График, демонстрирующий краулинговый бюджет сайта

Крім краулінгового бюджету, є ще краулінговий попит. Це два різні терміни. Другий означає, яку кількість лінків пошуковий робот може просканувати протягом доби.

Докладніше про те, чому краулінговий бюджет такий важливий для сайту, ви можете дізнатися з інтерв’ю одного з аналітиків Google Мартіна Сплітта та акаунт-менеджера пошуковика Алексіс Сендерс:

Як використовувати інформацію про краулінговий бюджет на практиці?

Припустимо, ви оптимізуєте великий інтернет-магазин. На сайті є багато категорій і підкатегорій продуктів, велика кількість фільтрів для зручності пошуку. Важливо, щоб в індекс потрапляли сторінки з високомаржинальними товарами, які приносять основний прибуток компанії. Інакше бізнес втрачає клієнтів, а з ними й дохід.

Рекомендуємо прочитати корисну «статтю» про те, які зворотні посилання ігнорує Google. Це допоможе якісніше просувати ваш інтернет-магазин у пошуковику..

Під час оптимізації подібних проєктів SEO-фахівці часто стикаються з двома помилками індексації контенту:

У пошуковій видачі знаходяться «сміттєві» сторінки, які не приносять користі, а то й зовсім негативно впливають на ранжування сайту.
Витрата краулінгового бюджету на непріоритетний контент.

Припустимо, «движок» ресурсу генерує велику кількість «сміттєвих» посилань, що потрапляють у карту сайту (sitemap), а потім і в індекс. Це загрожує тим, що бот витрачає бюджет без потрібного для вас профіту. Крім цього, ще й ліміт може скоротитися, оскільки роботи оцінюють якість лінків.

Або можлива така ситуація, коли на сайті встановлено багато фільтрів. За рахунок цього формується велика кількість різних комбінацій. Щоб подивитися, яке число сторінок генерується завдяки цьому, візьмемо, приміром, сторінку інтернет-магазину косметики та парфумерії «Креми для обличчя і тіла».

Для перегляду комбінацій складається таблиця з назвами категорій і фільтрів, як на прикладі нижче:

Таблица с названиями категорий и фильтров на сайте

На скрині видно, що лише одна сторінка категорій продукту генерує більшу кількість додаткових комбінацій фільтрів. А це все — неефективний контент, який може будь-якої секунди потрапити в індекс замість вмісту, що принесе бізнесу необхідну користь. Тому важливо знати краулінговий бюджет сайту, щоб не допустити подібної ситуації та збільшити ефективність сканування ботів Гугла.

Як оптимізувати фільтри, щоб збільшити краулінговий бюджет?

Звісно, ретельне опрацювання фільтрів потребуватиме зусиль і тимчасових витрат з боку оптимізатора, але ця робота того варта. Отже, в яких випадках залишаємо їх відкритими:

коли обрано тільки один фільтр з усього блоку;
якщо фільтри обрано за одним варіантом із пари різних блоків.

У яких випадках комбінації фільтрів необхідно закривати від індексації пошуковими ботами:

коли вибрано два і більше фільтри з одного блоку;
якщо вибрано більше пари фільтрів із різних блоків.

Важливо не забути налаштувати шаблони для мета-тегів для кожної сторінки фільтрації на сайті.

Описана вище первинна оптимізація підійде, якщо проєкт оптимізується з нуля або тільки невелика кількість неефективних комбінацій потрапили в індекс. В іншому випадку, потрібно більш детально попрацювати з фільтрацією на сайті. Для цього визначаються кластери, які не приносять належного профіту.

Якщо йдеться про невеликий онлайн-магазин, то можна зібрати й одразу кластеризувати семантичне ядро. Але для великого сайту з тисячами сторінок можна формувати СЯ роками. Для цього оптимізатор виписує всі фільтри, перемножує їх і в підсумку виходять частотні комбінації. Якщо показники частотності дорівнюють нулю, то SEO-фахівець прибирає посилання з sitemap і закриває сторінку від індексації. Такий самий алгоритм використовується, коли частотність є, але товар на сторінці відсутній.

Детальніше про збір і кластеризацію семантики читайте в нашій іншій «статті».

Керуємо краулінговим бюджетом: повна інструкція для SEO-оптимізаторів

Краулінговим бюджетом можна і потрібно керувати. Отже, пропонуємо кроки, які необхідно зробити, щоб в індексі з’являлися тільки ефективні для просування сайту сторінки:

1. Налаштовуємо sitemap.xml і robots.txt.

У цих документах містяться інструкції для пошукових ботів, як сканувати та індексувати вміст сайту. Тому в robots.txt необхідно закрити контент, який не приносить користі та заважає позитивному ранжуванню. З карти сайту необхідно видалити посилання з редиректами, canonical.

Також потрібно вказувати last-modified у sitemap. Це виключає подвійне сканування контенту, який не змінювався відтоді, як пошуковий бот сканував сторінку востаннє. Робот у такому разі переключиться на оновлені дані, які необхідно відправити в індекс пошуковика.

Детальніше про роботу з sitemap читайте в нашому «блозі».

2. Слідкуйте за швидкістю завантаження сайту.

Після останнього апгрейду Гугла швидкість завантаження сторінок — один із найважливіших чинників ранжування. При хороших показниках збільшується і продуктивність пошукового краулера на сайті. Тобто за однакову кількість з’єднань бот зможе просканувати більше контенту, ніж якщо сторінка пригальмовуватиме.

Для збільшення швидкості потрібно використовувати кешування, стиснути зображення на сайті та перевірити хостинг.

3. Перегляньте ланцюжки індексації: вони не повинні бути занадто довгими.

Коли пошуковий бот переходить за посиланнями індексації, то він може просто не дістатися до пріоритетного лінка. Тому перегляньте ланцюжок. Кожне перенаправлення — це мінус у краулінговий бюджет. Ще раз перевірте всі редиректи: чи потрібні вони, чи зручні для користувачів або краще обійтися без них.

В ідеалі варто позбутися всіх перенаправлень навіть з погляду користувацького досвіду. Але іноді без редиректів не обійтися.

4. Використовуйте динамічний рендеринг.

Це технологія, яка використовується для прискорення сканування та індексації контенту JavaScript-сторінок. Метод дає змогу надати краулеру пошуковика версію з html-кодом, а користувач при цьому бачить звичайний варіант сторінки.

Річ у тім, що боти Гугла не завжди можуть швидко і позитивно опрацювати вміст на сторінці JavaScirt. Тому бажано все ж використовувати динамічний рендеринг. У цьому разі сервер визначатиме пошукового робота. При цьому бот передасть запит рендереру, а користувач побачить звичайну версію сторінки.

Рендеринг встановлюється на певних посиланнях або, за необхідності, — на всіх. Боти при цьому не витрачатимуть ресурси на сканування та індексацію, а відразу отримають HTML-версію сторінки.

5. Оптимізуйте пагінацію на сайті.

Сторінки пагінації теж забирають левову частину краулінгового бюджету. Подивіться, який контент продовжує сканувати бот навіть за наявності тега noindex. Це можна зробити за допомогою інструменту Search Console.

Як правильно закривати сторінки від індексації?

Отже, є кілька варіантів, як закрити сторінки від сканування і заощадити краулінговий бюджет:

1. Тег nofollow

Це найпоширеніший спосіб. Але і тут є кілька нюансів. Один зі співробітників Гугл, Гері Ілш, розповідав що будь-який лінк, який сканує бот, вплине на краулінговий ліміт. Навіть якщо оптимізатор вкаже директиву, що забороняє сканування.

Тобто, наявність тега nofollow — це не 100% гарантія економії краулінгового бюджету, хоча метод і вбереже від індексації «сміттєвого» контенту.

«Стаття» в тему про те, що таке тег nofollow.

2. Post Get Redirect

Детальніше про цей метод можна прочитати «тут». Але якщо коротко, то ланцюжок дій має такий вигляд:

Post — передається лінк на сервер;
Redirect — браузер запитує посилання від конектора;
Get — система отримує інформацію про нову сторінку сайту.

Такі запити необхідні, щоб відправити форму на сервер. Але при цьому пошукові краулери самі не переходять за ними і не запитують дані. Це допомагає краще оптимізувати всі посилання сайту, водночас зробивши їх недоступними для пошукових систем.

Головна перевага — ви не витрачаєте бюджет на сканування. При цьому неефективні URL будуть виключені з індексації на 100%.
Але є і зворотна сторона: перехід за такими посиланнями буде повільнішим.

Краулінговий бюджет дуже важливий для SEO-оптимізації, якщо ви займаєтеся просуванням онлайн-магазинів. Це дасть змогу уникнути великої кількості «сміттєвих» сторінок в індексі. При цьому боти скануватимуть тільки пріоритетний контент. Перевіряти краулінговий бюджет необхідно для кожного проєкту окремо. Звертаємо увагу, що ліміт може збільшуватися за наявності якісної оптимізації ресурсу, що позитивно позначиться на результатах сканування пошуковими ботами.