Чем кастомный краулер лучше готовых сервисов?

Готовые сервисы (Screaming Frog, Sitebulb) ограничены объёмом, частотой обхода и гибкостью. Кастомный краулер на Python работает без лимитов, поддерживает любые источники данных (API, динамические страницы) и легко интегрируется с вашей инфраструктурой.

Какие данные собирает краулер?

Краулер собирает HTTP-статусы, метаданные (title, description, canonical, hreflang), граф внутренних ссылок, текстовое содержимое страниц. Также фиксирует дубли контента, медленные страницы и ошибки в структуре.

Сколько страниц может обработать краулер?

Архитектура асинхронного краулера позволяет обходить до 100 000 страниц за один запуск. При необходимости можно распределить нагрузку на несколько воркеров или запускать инкрементальные обходы.

Как краулер учитывает robots.txt и лимиты?

Краулер по умолчанию соблюдает правила robots.txt: анализирует директивы Disallow и Crawl-Delay. Также можно настроить политику вежливости (задержки между запросами) и исключить страницы с параметрами.

В каком виде предоставляются результаты?

Результаты индексируются в выбранную базу данных (PostgreSQL, Elasticsearch, Meilisearch) и доступны через API. Также предоставляется CSV-отчёт со всеми собранными данными и визуализация графа ссылок.

Чем кастомный краулер лучше готовых сервисов?

Готовые сервисы (Screaming Frog, Sitebulb) ограничены объёмом, частотой обхода и гибкостью. Кастомный краулер на Python работает без лимитов, поддерживает любые источники данных (API, динамические страницы) и легко интегрируется с вашей инфраструктурой.

Какие данные собирает краулер?

Краулер собирает HTTP-статусы, метаданные (title, description, canonical, hreflang), граф внутренних ссылок, текстовое содержимое страниц. Также фиксирует дубли контента, медленные страницы и ошибки в структуре.

Сколько страниц может обработать краулер?

Архитектура асинхронного краулера позволяет обходить до 100 000 страниц за один запуск. При необходимости можно распределить нагрузку на несколько воркеров или запускать инкрементальные обходы.

Как краулер учитывает robots.txt и лимиты?

Краулер по умолчанию соблюдает правила robots.txt: анализирует директивы Disallow и Crawl-Delay. Также можно настроить политику вежливости (задержки между запросами) и исключить страницы с параметрами.

В каком виде предоставляются результаты?

Результаты индексируются в выбранную базу данных (PostgreSQL, Elasticsearch, Meilisearch) и доступны через API. Также предоставляется CSV-отчёт со всеми собранными данными и визуализация графа ссылок.

Разработка краулера сайта для индексации внутреннего контента

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и обслуживание любых видов сайтов:

Информационные сайты или веб-приложения

Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы

Сайты или веб-приложения электронной коммерции

Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров

Веб-приложения для управления бизнес-процессами

CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации

Сайты или веб-приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Услуги, которые мы предлагаем

Показано 1 из 1Все 2062 услуг

Разработка краулера сайта для индексации внутреннего контента

Средний

~3-5 дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка сайта компании B2B ADVANCE
1361
Разработка веб-приложения для компании FEEDME
1252
Разработка веб-сайта для компании БЕЛФИНГРУПП
958
Разработка интернет магазина для компании FURNORO
1190
Разработка веб-приложения для компании Enviok
931
Разработка веб-сайта для компании ФИКСПЕР
949

Показать больше работ

При росте сайта до тысяч страниц ручной обход перестаёт работать. Без автоматизации невозможно отследить битые ссылки, дубли метаданных или изменения структуры. Внутренний краулер решает эту задачу за считанные часы. Мы разрабатываем кастомные решения под ключ — с учётом вашей архитектуры и требований к индексации.

Автоматизация поиска по сайту — не просто экономия времени. Это возможность строить полноценный поисковый индекс, который улучшает UX и помогает в SEO-аудите. Кастомный краулер на порядок производительнее готовых инструментов. Например, асинхронный обход на Python обрабатывает до 50 страниц в секунду, тогда как Screaming Frog — максимум 10. Это позволяет индексировать 100 000 страниц за час без перегрузки сервера. Экономия бюджета на ручном аудите окупается за месяц.

Как работает внутренний краулер?

Краулер выполняет асинхронный обход по алгоритму BFS: начинает с главной страницы, извлекает все внутренние ссылки, рекурсивно обходит их до заданной глубины или лимита. Каждый HTTP-запрос обрабатывается в asyncio с контролируемым параллелизмом — это позволяет без перегрузки сервера обрабатывать десятки страниц в секунду. Ошибки (таймауты, 404, редиректы) логируются и не прерывают процесс.

Компонент	Описание
Асинхронный движок	httpx + asyncio, до 50 concurrent-воркеров
Парсер	BeautifulSoup / lxml для HTML, Playwright для SPA
Фильтрация	robots.txt, exclude-паттерны, ограничение по глубине
Хранилище	PostgreSQL tsvector, Elasticsearch, Meilisearch (на выбор)

Почему стоит заказать разработку у нас?

Мы разрабатываем краулеры уже много лет — успешно завершили 30+ проектов для интернет-магазинов, агрегаторов и корпоративных порталов. Каждый краулер проходит нагрузочное тестирование: гарантируем обработку 10 000 страниц за 5 минут при адекватных настройках. Предоставляем полную документацию, обучение команды и техподдержку после деплоя. Окупаемость инвестиций — менее квартала.

Сравнение: кастомный краулер vs готовые инструменты

Готовые сервисы (Screaming Frog, Sitebulb) ограничены объёмом и гибкостью. Кастомный краулер:

Не имеет лимита на количество страниц.
Поддерживает динамический контент (SPA, бесконечная лента).
Интегрируется с вашей инфраструктурой (CI/CD, базы данных).
Собирает произвольные данные (атрибуты, микроразметка).

По скорости кастомное решение на Python с httpx в 5 раз быстрее аналогичных инструментов на Java. Это особенно заметно при обходе сайтов с более чем 50 000 страниц.

Подробнее о производительности

При обходе 200 000 страниц кастомный краулер с асинхронной архитектурой завершает работу за 2 часа, тогда как Screaming Frog тратит более 10 часов. Достигается это за счёт конвейерной обработки и минимизации накладных расходов на создание HTTP-сессий.

Как избежать типичных ошибок при разработке краулера?

Наиболее частые проблемы: игнорирование robots.txt ведёт к блокировке; отсутствие обработки пагинации и бесконечной ленты; слишком быстрый обход провоцирует блокировку сервером; нет дедупликации URL с разными параметрами. Мы учитываем каждую из этих проблем на этапе архитектуры. Например, в одном из проектов для агрегатора с 200 000 страниц правильная настройка Crawl-Delay и дедупликация сократили время обхода на 40%.

Как адаптировать краулер под свой сайт?

Проанализируйте структуру — определите типы страниц, пагинацию, динамические элементы.
Настройте политику вежливости — задайте задержки между запросами, исключите служебные разделы.
Выберите хранилище — PostgreSQL tsvector для небольших сайтов, Elasticsearch для высоконагруженных систем.
Протестируйте на выборке — запустите обход 1000 страниц, проверьте корректность данных.
Запустите полный обход — с мониторингом ошибок и автоматическим уведомлением.

Реализация

Пример асинхронного краулера на Python с использованием httpx и BeautifulSoup:

import asyncio
import httpx
from bs4 import BeautifulSoup
from urllib.parse import urljoin, urlparse
from collections import defaultdict

class SiteCrawler:
    def __init__(self, base_url: str, max_pages: int = 10000):
        self.base_url    = base_url
        self.base_domain = urlparse(base_url).netloc
        self.max_pages   = max_pages
        self.visited     = set()
        self.queue       = asyncio.Queue()
        self.results     = []

    async def crawl(self) -> list:
        await self.queue.put(self.base_url)

        async with httpx.AsyncClient(follow_redirects=True, timeout=15) as client:
            workers = [asyncio.create_task(self._worker(client)) for _ in range(5)]
            await self.queue.join()
            for w in workers: w.cancel()

        return self.results

    async def _worker(self, client: httpx.AsyncClient):
        while True:
            url = await self.queue.get()
            try:
                if url in self.visited or len(self.visited) >= self.max_pages:
                    continue
                self.visited.add(url)

                resp = await client.get(url)
                page_data = self._parse_page(url, resp)
                self.results.append(page_data)

                if resp.status_code == 200 and 'text/html' in resp.headers.get('content-type', ''):
                    for link in page_data['internal_links']:
                        if link not in self.visited:
                            await self.queue.put(link)
            finally:
                self.queue.task_done()

    def _parse_page(self, url: str, resp: httpx.Response) -> dict:
        soup = BeautifulSoup(resp.text, 'lxml') if resp.status_code == 200 else None

        result = {
            'url':     url,
            'status':  resp.status_code,
            'title':   soup.select_one('title')&.get_text(strip=True) if soup else None,
            'h1':      soup.select_one('h1')?.get_text(strip=True) if soup else None,
            'canonical': soup.select_one('link[rel=canonical]')?.get('href') if soup else None,
        }

        if soup:
            result['internal_links'] = [
                urljoin(url, a['href'])
                for a in soup.find_all('a', href=True)
                if urlparse(urljoin(url, a['href'])).netloc == self.base_domain
            ]

        return result

Сохранение в индекс поиска

После обхода данные индексируются в одну из систем. Сравнение вариантов:

Система	Скорость индексации	Типовой сценарий
PostgreSQL tsvector	~10 000 док/сек	Поиск по сайту до 100K страниц
Elasticsearch	~50 000 док/сек	Мультисайт, сложные запросы
Meilisearch	~30 000 док/сек	Быстрый старт, self-hosted

Что входит в работу

Архитектура краулера под вашу CMS / фреймворк.
Исходный код с CI/CD и Docker-образом.
Инструкция по развёртыванию и настройке.
Обучение команды (2 часа онлайн).
Гарантия на код 6 месяцев.

Сроки и стоимость

Базовый краулер с индексацией в PostgreSQL — от 3 до 5 рабочих дней. Стоимость рассчитывается индивидуально после анализа структуры сайта. Свяжитесь с нами — оценим проект бесплатно.

Экономия бюджета при таком подходе может достигать сотен тысяч рублей в год за счёт отказа от ручного аудита и готовых подписок. Получите консультацию по вашему проекту уже сегодня.

Почему Core Web Vitals критичны для технического SEO

PageSpeed показывает 34/100 на мобильных. В Search Console — красные метрики по всем страницам категорий. Конкурент с сайтом на 3 года старше стоит выше в выдаче, несмотря на более слабые тексты. Техническая производительность стала прямым ранжирующим фактором — и разрыв между «приемлемо» и «быстро» стоит позиций. Мы решали эту проблему для десятков проектов — от интернет-магазинов до SaaS-платформ — и знаем, какие ошибки съедают ранжирование.

Core Web Vitals: что реально влияет на позиции

Google использует три метрики как сигналы ранжирования (Page Experience): LCP (Largest Contentful Paint), CLS (Cumulative Layout Shift), INP (Interaction to Next Paint, заменил FID с последнего крупного обновления алгоритма).

LCP: почему 8 секунд — это не проблема изображения

LCP измеряет время отрисовки самого большого видимого элемента страницы. Чаще всего — hero image или H1. Пороги: хорошо < 2.5s, плохо > 4s.

Типичный диагноз на реальном проекте: интернет-магазин одежды, LCP 7.8s на мобильных. Элемент — hero image категории, 4.2MB JPEG без srcset, загружается через CSS background-image (не <img>). Проблема здесь двойная: во-первых, браузер не может preload CSS background images через <link rel="preload"> стандартным способом. Во-вторых, 4.2MB на мобильном соединении — это физически медленно.

Решение по шагам:

Переносим hero из CSS background в <img> с fetchpriority="high" и loading="eager"
Конвертируем в WebP, добавляем srcset: 800w для мобильных, 1400w для десктопа
<link rel="preload" as="image" href="hero-800.webp" media="(max-width: 768px)"> в <head>
Убираем все render-blocking скрипты выше hero через defer

Итог: LCP 7.8s → 1.9s. Без смены хостинга, без CDN.

Если LCP — не изображение, а текстовый блок: проблема может быть в TTFB (медленный сервер), в render-blocking CSS/JS, или в web fonts с font-display: block.

CLS: смещения, которые раздражают пользователя и Google

CLS измеряет суммарный сдвиг элементов в процессе загрузки. Пороги: хорошо < 0.1, плохо > 0.25. CLS 0.35 — это баннер, который появляется через секунду и сдвигает всё содержимое страницы вниз.

Источники CLS:

Изображения без заданных размеров. <img src="photo.jpg"> без width и height — браузер не резервирует место, контент прыгает при загрузке. Фикс: явные width/height или aspect-ratio в CSS.
Рекламные блоки и виджеты. Google Ads, чат-виджеты, cookie consent — всё, что появляется после основного контента. Решение: резервировать место через min-height или загружать до рендера основного контента.
Web fonts. FOUT (Flash of Unstyled Text) и FOIT (Flash of Invisible Text) могут вызывать переформатирование. font-display: swap с size-adjust (CSS свойство для выравнивания размеров fallback шрифта) минимизирует CLS.
Динамический контент. Если блок появляется после загрузки (fetch данных, lazy load) — добавляем skeleton placeholder с нужными размерами.

Типичный сценарий	CLS до	CLS после	Основной фикс
Баннер скидок без `min-height`	0.42	0.02	`min-height: 300px`
Картинки в статьях без атрибутов	0.18	0.01	`width`/`height` + `aspect-ratio`
Виджет чата, загружаемый через 3с	0.35	0.05	`position: fixed` с зарезервированным отступом

INP: почему интерфейс «зависает» на 500ms

INP измеряет задержку ответа на любое взаимодействие пользователя: клик, тап, ввод. Пороги: хорошо < 200ms, плохо > 500ms. INP 680ms — это когда пользователь нажимает кнопку фильтра, а ничего не происходит полсекунды.

Главная причина высокого INP — заблокированный main thread. JavaScript-бандл 2.1MB парсируется и выполняется синхронно. Пока выполняется, пользовательские события не обрабатываются.

Диагностика через Chrome DevTools → Performance → взаимодействие с подозрительной задержкой → найти Long Tasks (> 50ms). Типичные виновники:

Непрерывная обработка большого списка без requestIdleCallback или requestAnimationFrame
Тяжёлые event listeners без debounce/throttle
Синхронный setState в React, который триггерит полный ре-рендер сложного дерева компонентов
Third-party scripts: livechat, аналитика, виджеты — они исполняются в том же main thread

Решения: code splitting через динамический import(), перенос тяжёлых вычислений в Web Workers, React.memo + useMemo для предотвращения лишних ре-рендеров, scheduler API для приоритизации задач.

Schema.org: разметка, которую читают роботы

Структурированные данные через JSON-LD — не прямой ранжирующий фактор, но дают rich snippets в выдаче (звёзды рейтингов, цены, дата публикации), что увеличивает CTR на 20–30%.

Типы разметки по сценариям:

E-commerce: Product с offers (цена, наличие, валюта), aggregateRating (рейтинг из отзывов), brand. BreadcrumbList для навигации. ItemList для страниц категорий.
Статьи и блог: Article или BlogPosting с author, datePublished, dateModified, image. Organization и WebSite на главной странице — помогают Google связать сайт с брендом.
Локальный бизнес: LocalBusiness с address, telephone, openingHours, geo. Критично для локального SEO.
FAQ: FAQPage с mainEntity — вопросы и ответы могут появляться прямо в выдаче как раскрывающийся блок.

Валидация: Google Rich Results Test и Schema Markup Validator. Частая ошибка — указать price без priceCurrency, или ratingValue без reviewCount. Google игнорирует неполную разметку.

Как проводить технический SEO-аудит

Сканируемость. robots.txt блокирует нужные страницы (или наоборот, не блокирует служебные). Canonical URLs настроены неправильно — дублируются страницы с UTM-метками. Sitemap содержит страницы с noindex. Всё это Screaming Frog или Sitebulb покажут за час сканирования.

Core Web Vitals в масштабе. Google Search Console → Core Web Vitals → смотрим не отдельные страницы, а группы URL (шаблон страницы продукта, шаблон категории, блог). Проблема обычно системная — одна ошибка в шаблоне портит сотни страниц.

JavaScript SEO. Google рендерит JavaScript, но с задержкой (иногда дни для полного рендера). Для критичного контента — SSR или SSG обязательны. Проверяем через Search Console → Inspect URL → View Crawled Page: что видит Googlebot.

Internal linking. Орфанные страницы (нет входящих внутренних ссылок) теряют PageRank. Битые ссылки (404) — сигнал качества.

Типичные ошибки при внедрении Schema.org

Указан price без priceCurrency — разметка игнорируется.
ratingValue без reviewCount — в выдаче не показывается.
Несколько Product на одной странице без @type: ItemList — Google берёт только первый.
JSON-LD в GTM — Google не всегда видит динамическую разметку, лучше серверный рендеринг.

Этап работы	Что входит	Срок
Аудит	Сканирование, анализ Core Web Vitals, аудит Schema, отчёт с приоритетами	1–2 недели
Оптимизация одного шаблона	LCP, CLS, INP, внедрение SSR/SSG, настройка preload	2–4 недели
Полная техническая оптимизация	Все шаблоны, code splitting, Web Workers, мониторинг в CI	4–10 недель
Внедрение Schema.org	JSON-LD генерация, валидация, тестирование rich snippets	1–3 недели

Что входит в работу

Документация: отчёт с найденными проблемами, roadmap по приоритетам, тайминги для каждого этапа.
Доступы: настройка мониторинга (SpeedCurve, Sentry Search Console), передача dashboard.
Обучение: разбор типичных ошибок для вашей команды (1–2 созвона).
Поддержка: сопровождение в течение месяца после деплоя — проверка метрик, фикс регрессий.

Свяжитесь с нами — мы оценим ваш проект за 2 дня и покажем, сколько позиций можно вернуть за счёт технического SEO. Опыт работы с проектами уровня сотен тысяч посещений в месяц — гарантируем измеримый результат в Core Web Vitals до/после. Закажите аудит в этой форме — получите персональный чек-лист из 15 пунктов.