Как часто нужно обновлять данные парсера?

Рекомендуемая частота — раз в 4–12 часов в зависимости от динамики цен вашей ниши. Для маркетплейсов с высокочастотными изменениями можно настроить обход топ-позиций раз в час. Мы подбираем расписание под вашу задачу.

Что делать, если сайт конкурента изменил структуру?

Парсер периодически ломается при изменениях вёрстки или API. Мы настраиваем мониторинг: alert при сборе менее 50% обычного числа товаров. Обновление парсера под новую структуру обычно занимает 2–4 часа.

Можно ли парсить сайты с Cloudflare защитой?

Да, мы используем headless-браузер (Playwright) для обхода базовой защиты. При сложных каптчах возможны дополнительные решения, но большинство магазинов парсится без проблем.

Какие данные можно собрать?

Минимальный набор: SKU, название, цена (обычная и акционная), наличие, категория, URL товара, дата сбора. По вашему запросу добавляем рейтинг, отзывы, вес, габариты, бренд — зависит от структуры сайта.

Сколько времени занимает разработка парсера?

Парсер статического каталога до 50 000 товаров — 3–5 дней. С XHR-перехватом и Playwright — 5–8 дней. История цен, алерты и дашборд — ещё 3–5 дней. Сроки уточняем после анализа целевого сайта.

Как часто нужно обновлять данные парсера?

Рекомендуемая частота — раз в 4–12 часов в зависимости от динамики цен вашей ниши. Для маркетплейсов с высокочастотными изменениями можно настроить обход топ-позиций раз в час. Мы подбираем расписание под вашу задачу.

Что делать, если сайт конкурента изменил структуру?

Парсер периодически ломается при изменениях вёрстки или API. Мы настраиваем мониторинг: alert при сборе менее 50% обычного числа товаров. Обновление парсера под новую структуру обычно занимает 2–4 часа.

Можно ли парсить сайты с Cloudflare защитой?

Да, мы используем headless-браузер (Playwright) для обхода базовой защиты. При сложных каптчах возможны дополнительные решения, но большинство магазинов парсится без проблем.

Какие данные можно собрать?

Минимальный набор: SKU, название, цена (обычная и акционная), наличие, категория, URL товара, дата сбора. По вашему запросу добавляем рейтинг, отзывы, вес, габариты, бренд — зависит от структуры сайта.

Сколько времени занимает разработка парсера?

Парсер статического каталога до 50 000 товаров — 3–5 дней. С XHR-перехватом и Playwright — 5–8 дней. История цен, алерты и дашборд — ещё 3–5 дней. Сроки уточняем после анализа целевого сайта.

Разработка парсера каталога конкурентов — цены, ассортимент, алерты

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и обслуживание любых видов сайтов:

Информационные сайты или веб-приложения

Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы

Сайты или веб-приложения электронной коммерции

Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров

Веб-приложения для управления бизнес-процессами

CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации

Сайты или веб-приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Услуги, которые мы предлагаем

Показано 1 из 1Все 2062 услуг

Разработка парсера каталога конкурентов — цены, ассортимент, алерты

Средний

~3-5 дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка сайта компании B2B ADVANCE
1362
Разработка веб-приложения для компании FEEDME
1253
Разработка веб-сайта для компании БЕЛФИНГРУПП
958
Разработка интернет магазина для компании FURNORO
1190
Разработка веб-приложения для компании Enviok
931
Разработка веб-сайта для компании ФИКСПЕР
949

Показать больше работ

Вы запустили интернет-магазин, цены конкурентов меняются каждый день, а ручной мониторинг съедает часы менеджеров. Без автоматического сбора вы теряете прибыль: не успеваете среагировать на снижение цены у конкурента или пропускаете новинки в ассортименте. Парсер каталога товаров конкурентов — это инструмент, который ежедневно собирает актуальные цены, наличие и характеристики в вашу базу. Больше не нужно проверять сайты вручную: система сама обходит каталог, фиксирует изменения и присылает алерты. Наш опыт — более 10 лет в разработке таких решений, десятки успешных проектов под ключ.

Почему ручной сбор неэффективен?

Ручной мониторинг трёх конкурентов по 500 товаров занимает 2–3 часа в день. Ошибки, пропуски, устаревшие данные. Автоматический парсер решает эти проблемы: собирает данные за минуты, работает 24/7, не устаёт. Экономия времени — до 90% по сравнению с ручным сбором. Окупается за 2–3 месяца.

Анализ сайта перед разработкой

До написания кода — анализ целевого сайта:

Структура URL каталога: пагинация через ?page=N, бесконечная прокрутка или tree-навигация по категориям
Рендеринг: статический HTML (быстро и просто) или данные подгружаются через XHR/fetch (нужен перехват или headless)
Защита: Cloudflare, rate limiting, авторизация
Частота обновления данных на сайте — как быстро появляются новые товары и меняются цены

Тип сайта	Сложность парсинга	Скорость сбора (1000 товаров)	Надёжность
Статический HTML	Низкая	1–2 минуты	Высокая
SPA с XHR (API)	Средняя	3–5 минут	Очень высокая
SPA без API (Client-side render)	Высокая	5–10 минут	Высокая (при правильных паузах)

Типичный минимальный набор полей: SKU / артикул, название, цена (обычная + акционная), наличие, категория, URL страницы товара, дата сбора. Для некоторых ниш важны: рейтинг, количество отзывов, вес/габариты, бренд.

Техническая реализация

Для статических сайтов — httpx + parsel (или Cheerio для Node.js). Async-запросы, пул соединений 10–20 воркеров, задержка 1–3 секунды между запросами к одному домену.

import httpx
import asyncio
import random
from parsel import Selector

UA_POOL = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36',
]

async def fetch_page(session: httpx.AsyncClient, url: str) -> str:
    headers = {
        'User-Agent': random.choice(UA_POOL),
        'Accept-Language': 'ru-RU,ru;q=0.9',
    }
    resp = await session.get(url, headers=headers, timeout=15)
    resp.raise_for_status()
    return resp.text

async def parse_catalog_page(html: str, base_url: str) -> list[dict]:
    sel = Selector(html)
    products = []

    for item in sel.css('.product-card'):
        price_raw = item.css('.price::text').get('').strip()
        price = int(''.join(c for c in price_raw if c.isdigit())) if price_raw else None

        products.append({
            'title': item.css('.product-title::text').get('').strip(),
            'price': price,
            'sku': item.attrib.get('data-sku'),
            'url': base_url + item.css('a::attr(href)').get(''),
            'in_stock': bool(item.css('.in-stock')),
            'image_url': item.css('img::attr(src)').get(),
        })

    return products

Для SPA с XHR — перехват API-запросов через Playwright. Многие современные интернет-магазины при открытии страницы делают fetch-запрос к собственному API, возвращающему JSON с данными о товарах:

from playwright.async_api import async_playwright
import json

async def intercept_catalog_api(catalog_url: str) -> list[dict]:
    products = []

    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()

        async def handle_response(response):
            if '/api/catalog' in response.url and response.status == 200:
                try:
                    data = await response.json()
                    if 'products' in data:
                        products.extend(data['products'])
                except Exception:
                    pass

        page.on('response', handle_response)
        await page.goto(catalog_url, wait_until='networkidle')
        await browser.close()

    return products

Если API возвращает JSON напрямую — можно обращаться к нему минуя браузер, что в 10–20 раз быстрее. Для поиска эндпоинта — DevTools Network вкладка при ручном переходе по каталогу.

Как работает парсинг SPA с XHR?

В SPA основная сложность — не HTML, а API-запросы, которые подгружают данные. Мы перехватываем эти запросы через Playwright и получаем чистый JSON. Это надёжнее, чем разбирать динамически сгенерированный DOM. Если API открытый — обращаемся к нему напрямую, экономя ресурсы.

Пагинация и полный обход

Для пагинации через ?page=N — последовательный обход до пустой страницы:

async def scrape_full_catalog(base_url: str) -> list[dict]:
    all_products = []
    page_num = 1

    async with httpx.AsyncClient() as session:
        while True:
            url = f'{base_url}?page={page_num}'
            html = await fetch_page(session, url)
            products = await parse_catalog_page(html, base_url)

            if not products:
                break

            all_products.extend(products)
            page_num += 1
            await asyncio.sleep(random.uniform(1.5, 3.0))  # вежливая задержка

    return all_products

Для категорийного дерева — сначала рекурсивный сбор всех URL категорий, затем обход каждой категории с пагинацией.

Хранение и инкрементальное обновление

CREATE TABLE competitor_products (
  id           SERIAL PRIMARY KEY,
  source       VARCHAR(100) NOT NULL,      -- 'competitor_a', 'competitor_b'
  external_id  VARCHAR(255) NOT NULL,
  title        TEXT NOT NULL,
  price        DECIMAL(10,2),
  price_sale   DECIMAL(10,2),
  in_stock     BOOLEAN DEFAULT TRUE,
  category     VARCHAR(500),
  url          TEXT NOT NULL,
  image_url    TEXT,
  attributes   JSONB DEFAULT '{}',
  first_seen   TIMESTAMPTZ DEFAULT NOW(),
  last_seen    TIMESTAMPTZ DEFAULT NOW(),
  UNIQUE(source, external_id)
);

CREATE TABLE competitor_price_history (
  id         BIGSERIAL PRIMARY KEY,
  product_id INT REFERENCES competitor_products(id),
  price      DECIMAL(10,2),
  price_sale DECIMAL(10,2),
  in_stock   BOOLEAN,
  scraped_at TIMESTAMPTZ DEFAULT NOW()
);

CREATE INDEX ON competitor_price_history(product_id, scraped_at DESC);

При повторном обходе — INSERT ... ON CONFLICT (source, external_id) DO UPDATE SET last_seen = NOW(), price = EXCLUDED.price, .... Запись в историю делается только если цена или наличие изменились (сравнение с последней записью через LAG() или хранение price в основной таблице).

Расписание и оповещения

Celery Beat или Node.js cron. Рекомендуемая частота для каталога конкурента — раз в 4–12 часов, в зависимости от динамики цен в нише. Для маркетплейсов с быстро меняющимися ценами — раз в час для топ-позиций.

Оповещение при снижении цены конкурента ниже вашей — SQL-запрос или триггер PostgreSQL с уведомлением в Slack/Telegram через webhook. Пример запроса:

SELECT cp.title, cp.price AS competitor_price, mp.price AS my_price
FROM competitor_products cp
JOIN my_products mp ON mp.sku = cp.external_id
WHERE cp.source = 'competitor_a'
  AND cp.price < mp.price
  AND cp.in_stock = TRUE
ORDER BY (mp.price - cp.price) DESC;

Как настроить алерты о снижении цен конкурента?

Установите сигнатуру: SELECT ... WHERE cp.price < mp.price * 0.95 — алерт при снижении на 5%.
Настройте webhook в Telegram/Slack.
Запустите SQL-запрос после каждого обхода и отправляйте результат.

Мы реализуем эту логику в составе парсера: вы получаете уведомление в мессенджер с таблицей товаров, где конкурент стал дешевле.

Как обеспечить бесперебойную работу парсера?

Сайты конкурентов меняются — парсер периодически ломается. Мы настраиваем мониторинг: alert если за последний запуск собрано менее 50% от среднего количества товаров. При изменении структуры — обновление обычно занимает 2–4 часа. Гарантируем поддержку и адаптацию под новые версии сайтов.

Что входит в работу

Исчерпывающий анализ целевого сайта (структура, защита, API)
Разработка парсера с учётом пагинации, категорий, инкрементального обновления
Настройка базы данных для хранения истории цен и ассортимента
Организация расписания (cron) и алертов (Telegram/Slack)
Документация по эксплуатации и доступам
Обучение вашего сотрудника работе с системой
Гарантийная поддержка 1 месяц и реагирование на сбои 2–4 часа

Оценим ваш проект — пишите, мы предложим оптимальное решение под ключ. Закажите разработку парсера и получите инструмент, который принесёт реальную пользу в конкурентной борьбе. Wikipedia: Web scraping

Услуги бэкенд-разработки: Laravel, Node.js, Go, Django, PostgreSQL

На production-сервере в 3:14 ночи очередь Laravel Jobs перестала обрабатываться. 40 000 необработанных задач в Redis. Причина: worker упал из-за memory leak в одном из Jobs (утечка через статическую переменную в Eloquent observer), supervisor не перезапустил его из-за misconfigured stopwaitsecs. Это не гипотетический сценарий — это вторник. Мы разбирали такой инцидент на проекте с нагрузкой 500 RPS: диагностика заняла 4 часа, фикс — 20 минут. Чтобы вы не теряли деньги на простоях, предлагаем услуги бэкенд-разработки с акцентом на production-grade надёжность. Оценим ваш проект за 2 дня.

Backend — это то, что работает когда никто не смотрит. Или не работает. Гарантируем, что у вас будет первый вариант.

Что мы делаем с первого дня правильно

Service Layer поверх Fat Controllers. Controller получает HTTP-запрос, валидирует его через Form Request, передаёт данные в Service, возвращает ответ. Бизнес-логика в Service, не в Controller. Это звучит банально, но большинство legacy-проектов — это контроллеры по 500 строк с SQL-запросами внутри.

Repository Pattern используем осторожно. Если вы просто оборачиваете Model::where(...) в метод репозитория — это бойлерплейт без пользы. Repository оправдан когда: нужно абстрагироваться от источника данных (БД + кеш + внешний API) или когда логика запросов достаточно сложна для изоляции.

Jobs, Events, Listeners. Всё, что можно сделать асинхронно — делаем асинхронно. Отправка email, генерация PDF, синхронизация с внешним API, пересчёт агрегатов — в Queue. Laravel Horizon для мониторинга очередей в Redis: видно throughput, failed jobs, время обработки по очередям.

Как Octane справляется с высокой нагрузкой

Laravel Octane с RoadRunner или Swoole держит приложение в памяти между запросами — убирает overhead bootstrap (загрузка конфигов, автозагрузка классов) на каждый HTTP-запрос. Прирост: 3–8x на синтетических бенчмарках, 2–4x на реальных приложениях. Важно: нельзя хранить состояние между запросами в статических переменных — это приводит именно к таким инцидентам, как в начале. Применяем это в проектах с >1000 RPS.

Что делать с N+1 запросами

N+1 — самая распространённая причина медленных страниц в Laravel-приложениях. Стандартная история: страница работала нормально на dev с 10 записями, на production с 10 000 — 8-секундная загрузка.

Laravel Debugbar в dev-окружении показывает количество запросов на страницу. Более 20 запросов на одну страницу — сигнал для audit.

Model::preventLazyLoading(! app()->isProduction());

Telescope для профилирования в staging: логирует все запросы, jobs, mail, notifications с детализацией по времени. Цифры: после внедрения eager loading время загрузки страницы падает с 8 с до 0.3 с — в 27 раз.

PostgreSQL: индексы, которые реально нужны

PostgreSQL 14+ — основная БД на всех проектах. Используем связку PgBouncer + PostgreSQL. Опыт 10+ лет, более 50 backend-проектов, 5 лет на рынке.

Как PostgreSQL помогает избежать медленных запросов

Composite indexes для частых WHERE + ORDER BY. Если у вас WHERE user_id = ? AND status = ? ORDER BY created_at DESC — нужен (user_id, status, created_at DESC). Индекс по (user_id) отдельно плохо помогает с сортировкой.

Partial indexes. Если 95% запросов идут по WHERE status = 'active':

CREATE INDEX idx_orders_active ON orders (created_at DESC)
WHERE status = 'active';

Индекс маленький, быстрый, покрывает основную нагрузку.

GIN-индексы для JSONB и массивов. @> оператор без GIN-индекса — seq scan. С индексом — быстро даже на миллионах записей.

GIN для full-text search. to_tsvector + GIN вместо LIKE '%query%'. LIKE без индекса — всегда seq scan. С pg_trgm extension и gin_trgm_ops — поддержка LIKE с индексом, полезно для CRM-поиска по частичному совпадению.

Connection pooling: почему важнее чем кажется

Rails, Laravel, Django открывают новое соединение с PostgreSQL на каждый PHP/Python процесс. На 100 воркерах — 100 соединений. PostgreSQL начинает деградировать от 200–300 активных соединений — overhead на управление соединениями становится значительным.

PgBouncer — connection pooler перед PostgreSQL. Режим transaction pooling: соединение с PostgreSQL занято только на время транзакции, между запросами возвращается в пул. 1000 приложений-воркеров → 20–50 реальных соединений к PostgreSQL. Это снижает latency на 40% и уменьшает затраты на хостинг на 30%.

Node.js с Fastify: когда это лучше Laravel

Node.js оправдан для:

Realtime: WebSocket-серверы, Server-Sent Events, чат, live-обновления
Streaming: большие файлы, видео, данные потоком
High I/O concurrency: много параллельных запросов к внешним API без тяжёлой бизнес-логики
Serverless: Lambda/Cloud Functions — Node.js стартует быстрее PHP

Fastify вместо Express: в 2–3 раза быстрее на benchmarks, встроенная JSON Schema валидация, лучшая TypeScript поддержка, plugin-архитектура.

Типичная архитектура realtime: Laravel — основная бизнес-логика и REST API. Node.js + Socket.io или ws — WebSocket сервер. Laravel публикует события в Redis Pub/Sub, Node.js подписывается и транслирует клиентам. Это разделение позволяет масштабировать WebSocket-сервер независимо от основного приложения.

Go: микросервисы и высокая нагрузка

Go используем для:

Высоконагруженных микросервисов (> 10 000 RPS)
Фоновых воркеров с жёсткими требованиями к latency
Инструментов DevOps и CLI
gRPC-сервисов в микросервисной архитектуре

Goroutines — дешевле OS-потоков в тысячи раз. 10 000 конкурентных соединений на Go — норма на одном сервере.

Но Go — не волшебная таблетка. Разработка медленнее чем на Laravel: больше бойлерплейта, нет ORM уровня Eloquent, обработка ошибок через if err != nil везде. Оправдан только когда производительность — реальное требование, не предположение.

Django и Python backend

Django с DRF (Django REST Framework) — для задач где нужен Python: ML-пайплайны, обработка данных, интеграции с AI-инструментами.

Celery для фоновых задач — аналог Laravel Queue, но сложнее в конфигурации. Celery Beat для cron-задач.

Django ORM vs raw SQL: ORM удобен для CRUD. Для аналитических запросов с несколькими JOIN, оконными функциями и CTE — connection.execute() с raw SQL читаемее и предсказуемее.

Redis: не только кеш

Redis в наших проектах выполняет несколько ролей:

Роль	Детали
Кеш	Кеширование результатов тяжёлых запросов, фрагментов HTML
Очереди	Backend для Laravel Queue / Celery
Session store	Distributed sessions в multi-instance окружении
Pub/Sub	Realtime события между сервисами
Rate limiting	Sliding window counters для API throttling
Leaderboards	Sorted Sets для рейтингов

Redis Cluster для горизонтального масштабирования. Sentinel для автоматического failover на standalone установках.

Деплой и инфраструктура

Docker + docker-compose — стандарт для локальной разработки и production. Каждый сервис в контейнере: PHP-FPM/Octane, Nginx, PostgreSQL, Redis, Queue Worker, Scheduler.

CI/CD через GitHub Actions:

Прогон тестов (PHPUnit / Pest, Vitest, Playwright)
Сборка Docker-образа
Push в Container Registry
Deploy: docker pull → docker-compose up -d на сервере, или Kubernetes rolling update

Zero-downtime deploy для Laravel: php artisan down --secret=TOKEN не нужен при правильной настройке. Стратегия: новый контейнер стартует рядом со старым, Nginx переключает трафик после health check, старый контейнер останавливается.

Мониторинг: Sentry для exception tracking с alerting в Slack/Telegram. Grafana + Prometheus (или Grafana Cloud) для метрик: CPU, memory, request rate, queue depth, database connection count. Алерт на: error rate > 1%, p99 latency > 2s, queue depth > 1000 jobs.

Что входит в работу под ключ

Архитектурное проектирование (документация API, схема БД, диаграмма сервисов)
Реализация по согласованному ТЗ с code review
Настройка CI/CD, мониторинга, алертинга
Нагрузочное тестирование (k6, wrk) с отчётом
Передача исходников, доступов, инструкция по деплою
Обучение команды заказчика (2-3 сессии)
Гарантийная поддержка 1 месяц после сдачи

Ориентиры по срокам

Задача	Срок
REST API для мобильного/SPA (средняя сложность)	6–12 недель
Backend со сложной бизнес-логикой + интеграции	12–20 недель
Высоконагруженный сервис на Go	8–16 недель
Миграция legacy PHP на Laravel	16–32 недели

Стоимость рассчитывается индивидуально после анализа требований к нагрузке, интеграциям и бизнес-логике. Типичный бюджет backend-проекта — от 500 000 до 2 000 000 рублей в зависимости от сложности. Свяжитесь с нами для бесплатного аудита вашего текущего backend — получите план оптимизации за 2 дня. Закажите консультацию.