Оптимізація краулінгового бюджету (Crawl Budget) сайту

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми
Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори
Сайти або веб-програми електронної комерції
Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів
Веб-програми для управління бізнес-процесами
CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації
Сайти або веб-програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Пропоновані послуги
Показано 1 з 1 послугУсі 2065 послуг
Оптимізація краулінгового бюджету (Crawl Budget) сайту
Середня
~2-3 робочих дні
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    874
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851

Оптимізація краулингового бюджету (Crawl Budget) вашого сайту

Crawl Budget — кількість сторінок, яких Googlebot готов проіндексувати на сайті за одиницю часу. На великих сайтах неправильне витрачання бюджету призводить до того, що важливі сторінки не індексуються, поки роботи витрачають час на беззмістовні URL.

Що зїдає краулинговий бюджет

  • URL з параметрами сортування та фільтрації (?sort=price&color=red)
  • Пагінація в нескінченних комбінаціях
  • Дублюючі сторінки (з та без trailing slash, http/https)
  • Сторінки з параметрами сесій (?session_id=abc123)
  • Технічні сторінки (кошик, особистий кабінет, пошук)
  • Сторінки з UTM-мітками

Аналіз поточного бюджету

Google Search Console → Settings → Crawl Stats показує:

  • Середнє число запитів у день
  • Середній час завантаження
  • Відповіді за типами (успішні, редиректи, 404)

Інструменти для аналізу: Screaming Frog, лог-файли сервера:

# Аналіз access.log: що краулить Googlebot
grep "Googlebot" /var/log/nginx/access.log | \
  awk '{print $7}' | sort | uniq -c | sort -rn | head -50

# Знайти параметри в URL яких краулить бот
grep "Googlebot" /var/log/nginx/access.log | \
  grep "?" | awk '{print $7}' | \
  sed 's/=.*/=X/g' | sort | uniq -c | sort -rn | head -30

robots.txt: блокування ненебхідних URL

User-agent: *
Disallow: /search?
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /admin/
Disallow: /*?session_id=
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?ref=
Disallow: /wp-json/
Disallow: /wp-admin/
Disallow: /*.pdf$

# Дозволити важливі файли
Allow: /sitemap.xml
Allow: /robots.txt

Canonical для дублюючого контенту

<!-- Сторінка з фільтром → canonical на базову -->
<!-- /catalog/shoes?color=red&size=42 -->
<link rel="canonical" href="https://site.com/catalog/shoes">

<!-- /catalog/shoes/ (trailing slash) → canonical без -->
<link rel="canonical" href="https://site.com/catalog/shoes">

<!-- UTM параметри → canonical на чистий URL -->
<link rel="canonical" href="https://site.com/articles/post-title">

Налаштування параметрів URL у GSC

Google Search Console → Legacy tools → URL Parameters (для старих акаунтів) або через canonical теги для нових.

Алгоритм: кожен параметр URL класифікується:

  • Змінює контент → індексувати (category, page)
  • Не змінює контент → не краулити (utm_source, ref, sid)
  • Сортування/фільтрація → canonical до базового URL
# nginx: видалити UTM параметри при редиректі
if ($arg_utm_source) {
    # Видалити всі UTM параметри через map
}
map $args $clean_args {
    ~*(?:^|&)(utm_[^&]*)(&|$)    $1;  # знайти UTM
    default                       $args;
}

Оптимізація Sitemap.xml

Sitemap повинен містити тільки важливі, індексовані URL:

def generate_optimized_sitemap(db):
    pages = db.query("""
        SELECT url, updated_at, priority
        FROM pages
        WHERE status = 'published'
        AND noindex = false
        AND updated_at > NOW() - INTERVAL '2 years'
        ORDER BY priority DESC, updated_at DESC
    """)

    xml = ['<?xml version="1.0" encoding="UTF-8"?>',
           '<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">']

    for page in pages:
        xml.extend([
            '<url>',
            f'  <loc>{escape(page["url"])}</loc>',
            f'  <lastmod>{page["updated_at"].strftime("%Y-%m-%d")}</lastmod>',
            f'  <priority>{page["priority"]:.1f}</priority>',
            '</url>'
        ])

    xml.append('</urlset>')
    return '\n'.join(xml)

Не додавати до sitemap: сторінки з noindex, 404, редиректи, сторінки без контенту.

Керування швидкістю краулингу

GSC → Settings → Crawl rate дозволяє попросити Google краулити повільніше (корисно для перевантажених серверів). Прискорити краулинг неможна — це визначає Google.

Для Yandex: директива robots.txt Crawl-delay:

User-agent: Yandex
Crawl-delay: 2

Тривалість

Аудит та оптимізація crawl budget (robots.txt, canonical, sitemap) — 1–2 робочих дні.