Оптимізація краулингового бюджету (Crawl Budget) вашого сайту
Crawl Budget — кількість сторінок, яких Googlebot готов проіндексувати на сайті за одиницю часу. На великих сайтах неправильне витрачання бюджету призводить до того, що важливі сторінки не індексуються, поки роботи витрачають час на беззмістовні URL.
Що зїдає краулинговий бюджет
- URL з параметрами сортування та фільтрації (
?sort=price&color=red) - Пагінація в нескінченних комбінаціях
- Дублюючі сторінки (з та без trailing slash, http/https)
- Сторінки з параметрами сесій (
?session_id=abc123) - Технічні сторінки (кошик, особистий кабінет, пошук)
- Сторінки з UTM-мітками
Аналіз поточного бюджету
Google Search Console → Settings → Crawl Stats показує:
- Середнє число запитів у день
- Середній час завантаження
- Відповіді за типами (успішні, редиректи, 404)
Інструменти для аналізу: Screaming Frog, лог-файли сервера:
# Аналіз access.log: що краулить Googlebot
grep "Googlebot" /var/log/nginx/access.log | \
awk '{print $7}' | sort | uniq -c | sort -rn | head -50
# Знайти параметри в URL яких краулить бот
grep "Googlebot" /var/log/nginx/access.log | \
grep "?" | awk '{print $7}' | \
sed 's/=.*/=X/g' | sort | uniq -c | sort -rn | head -30
robots.txt: блокування ненебхідних URL
User-agent: *
Disallow: /search?
Disallow: /cart/
Disallow: /checkout/
Disallow: /account/
Disallow: /admin/
Disallow: /*?session_id=
Disallow: /*?utm_source=
Disallow: /*?utm_medium=
Disallow: /*?ref=
Disallow: /wp-json/
Disallow: /wp-admin/
Disallow: /*.pdf$
# Дозволити важливі файли
Allow: /sitemap.xml
Allow: /robots.txt
Canonical для дублюючого контенту
<!-- Сторінка з фільтром → canonical на базову -->
<!-- /catalog/shoes?color=red&size=42 -->
<link rel="canonical" href="https://site.com/catalog/shoes">
<!-- /catalog/shoes/ (trailing slash) → canonical без -->
<link rel="canonical" href="https://site.com/catalog/shoes">
<!-- UTM параметри → canonical на чистий URL -->
<link rel="canonical" href="https://site.com/articles/post-title">
Налаштування параметрів URL у GSC
Google Search Console → Legacy tools → URL Parameters (для старих акаунтів) або через canonical теги для нових.
Алгоритм: кожен параметр URL класифікується:
- Змінює контент → індексувати (category, page)
- Не змінює контент → не краулити (utm_source, ref, sid)
- Сортування/фільтрація → canonical до базового URL
# nginx: видалити UTM параметри при редиректі
if ($arg_utm_source) {
# Видалити всі UTM параметри через map
}
map $args $clean_args {
~*(?:^|&)(utm_[^&]*)(&|$) $1; # знайти UTM
default $args;
}
Оптимізація Sitemap.xml
Sitemap повинен містити тільки важливі, індексовані URL:
def generate_optimized_sitemap(db):
pages = db.query("""
SELECT url, updated_at, priority
FROM pages
WHERE status = 'published'
AND noindex = false
AND updated_at > NOW() - INTERVAL '2 years'
ORDER BY priority DESC, updated_at DESC
""")
xml = ['<?xml version="1.0" encoding="UTF-8"?>',
'<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">']
for page in pages:
xml.extend([
'<url>',
f' <loc>{escape(page["url"])}</loc>',
f' <lastmod>{page["updated_at"].strftime("%Y-%m-%d")}</lastmod>',
f' <priority>{page["priority"]:.1f}</priority>',
'</url>'
])
xml.append('</urlset>')
return '\n'.join(xml)
Не додавати до sitemap: сторінки з noindex, 404, редиректи, сторінки без контенту.
Керування швидкістю краулингу
GSC → Settings → Crawl rate дозволяє попросити Google краулити повільніше (корисно для перевантажених серверів). Прискорити краулинг неможна — це визначає Google.
Для Yandex: директива robots.txt Crawl-delay:
User-agent: Yandex
Crawl-delay: 2
Тривалість
Аудит та оптимізація crawl budget (robots.txt, canonical, sitemap) — 1–2 робочих дні.







