Як часто потрібно оновлювати дані парсера?

Рекомендована частота — раз на 4–12 годин залежно від динаміки цін вашої ніші. Для маркетплейсів з високочастотними змінами можна налаштувати обхід топ-позицій щогодини. Ми підбираємо розклад під ваше завдання.

Що робити, якщо сайт конкурента змінив структуру?

Парсер періодично ламається при змінах верстки або API. Ми налаштовуємо моніторинг: alert при зборі менше 50% звичайної кількості товарів. Оновлення парсера під нову структуру зазвичай займає 2–4 години.

Чи можна парсити сайти з Cloudflare захистом?

Так, ми використовуємо headless-браузер (Playwright) для обходу базового захисту. При складних каптчах можливі додаткові рішення, але більшість магазинів парситься без проблем.

Які дані можна зібрати?

Мінімальний набір: SKU, назва, ціна (звичайна та акційна), наявність, категорія, URL товару, дата збору. За вашим запитом додаємо рейтинг, відгуки, вагу, габарити, бренд — залежить від структури сайту.

Скільки часу займає розробка парсера?

Парсер статичного каталогу до 50 000 товарів — 3–5 днів. З XHR-перехопленням і Playwright — 5–8 днів. Історія цін, алерти та дашборд — ще 3–5 днів. Терміни уточнюємо після аналізу цільового сайту.

Як часто потрібно оновлювати дані парсера?

Рекомендована частота — раз на 4–12 годин залежно від динаміки цін вашої ніші. Для маркетплейсів з високочастотними змінами можна налаштувати обхід топ-позицій щогодини. Ми підбираємо розклад під ваше завдання.

Що робити, якщо сайт конкурента змінив структуру?

Парсер періодично ламається при змінах верстки або API. Ми налаштовуємо моніторинг: alert при зборі менше 50% звичайної кількості товарів. Оновлення парсера під нову структуру зазвичай займає 2–4 години.

Чи можна парсити сайти з Cloudflare захистом?

Так, ми використовуємо headless-браузер (Playwright) для обходу базового захисту. При складних каптчах можливі додаткові рішення, але більшість магазинів парситься без проблем.

Які дані можна зібрати?

Мінімальний набір: SKU, назва, ціна (звичайна та акційна), наявність, категорія, URL товару, дата збору. За вашим запитом додаємо рейтинг, відгуки, вагу, габарити, бренд — залежить від структури сайту.

Скільки часу займає розробка парсера?

Парсер статичного каталогу до 50 000 товарів — 3–5 днів. З XHR-перехопленням і Playwright — 5–8 днів. Історія цін, алерти та дашборд — ще 3–5 днів. Терміни уточнюємо після аналізу цільового сайту.

Розробка парсера каталогу конкурентів — ціни, асортимент, алерти

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми

Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори

Сайти або веб-програми електронної комерції

Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів

Веб-програми для управління бізнес-процесами

CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації

Сайти або веб-програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 2062 послуг

Розробка парсера каталогу конкурентів — ціни, асортимент, алерти

Середній

~3-5 днів

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка сайту компанії B2B ADVANCE
1362
Розробка веб-додатків для компанії FEEDME
1253
Розробка веб-сайту для компанії БЕЛФІНГРУП
958
Розробка інтернет магазину для компанії FURNORO
1190
Розробка веб-додатків для компанії Enviok
931
Розробка веб-сайту для компанії ФІКСПЕР
949

Показати більше робіт

Ви запустили інтернет-магазин, ціни конкурентів змінюються щодня, а ручний моніторинг з'їдає години менеджерів. Без автоматичного збору ви втрачаєте прибуток: не встигаєте зреагувати на зниження ціни у конкурента або пропускаєте новинки в асортименті. Парсер каталогу товарів конкурентів — це інструмент, який щодня збирає актуальні ціни, наявність та характеристики у вашу базу. Більше не потрібно перевіряти сайти вручну: система сама обходить каталог, фіксує зміни та надсилає алерти. Наш досвід — понад 10 років у розробці таких рішень, десятки успішних проєктів під ключ.

Чому ручний збір неефективний?

Ручний моніторинг трьох конкурентів по 500 товарів займає 2–3 години на день. Помилки, пропуски, застарілі дані. Автоматичний парсер вирішує ці проблеми: збирає дані за хвилини, працює 24/7, не втомлюється. Економія часу — до 90% порівняно з ручним збором. Окупається за 2–3 місяці.

Аналіз сайту перед розробкою

До написання коду — аналіз цільового сайту:

Структура URL каталогу: пагінація через ?page=N, нескінченна прокрутка або tree-навігація за категоріями
Рендеринг: статичний HTML (швидко і просто) або дані підвантажуються через XHR/fetch (потрібне перехоплення або headless)
Захист: Cloudflare, rate limiting, авторизація
Частота оновлення даних на сайті — як швидко з'являються нові товари та змінюються ціни

Тип сайту	Складність парсингу	Швидкість збору (1000 товарів)	Надійність
Статичний HTML	Низька	1–2 хвилини	Висока
SPA з XHR (API)	Середня	3–5 хвилин	Дуже висока
SPA без API (Client-side render)	Висока	5–10 хвилин	Висока (при правильних паузах)

Типовий мінімальний набір полів: SKU / артикул, назва, ціна (звичайна + акційна), наявність, категорія, URL сторінки товару, дата збору. Для деяких ніш важливі: рейтинг, кількість відгуків, вага/габарити, бренд.

Технічна реалізація

Для статичних сайтів — httpx + parsel (або Cheerio для Node.js). Async-запити, пул з'єднань 10–20 воркерів, затримка 1–3 секунди між запитами до одного домену.

import httpx
import asyncio
import random
from parsel import Selector

UA_POOL = [
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36',
]

async def fetch_page(session: httpx.AsyncClient, url: str) -> str:
    headers = {
        'User-Agent': random.choice(UA_POOL),
        'Accept-Language': 'uk-UA,uk;q=0.9',
    }
    resp = await session.get(url, headers=headers, timeout=15)
    resp.raise_for_status()
    return resp.text

async def parse_catalog_page(html: str, base_url: str) -> list[dict]:
    sel = Selector(html)
    products = []

    for item in sel.css('.product-card'):
        price_raw = item.css('.price::text').get('').strip()
        price = int(''.join(c for c in price_raw if c.isdigit())) if price_raw else None

        products.append({
            'title': item.css('.product-title::text').get('').strip(),
            'price': price,
            'sku': item.attrib.get('data-sku'),
            'url': base_url + item.css('a::attr(href)').get(''),
            'in_stock': bool(item.css('.in-stock')),
            'image_url': item.css('img::attr(src)').get(),
        })

    return products

Для SPA з XHR — перехоплення API-запитів через Playwright. Багато сучасних інтернет-магазинів при відкритті сторінки роблять fetch-запит до власного API, який повертає JSON з даними про товари:

from playwright.async_api import async_playwright
import json

async def intercept_catalog_api(catalog_url: str) -> list[dict]:
    products = []

    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()

        async def handle_response(response):
            if '/api/catalog' in response.url and response.status == 200:
                try:
                    data = await response.json()
                    if 'products' in data:
                        products.extend(data['products'])
                except Exception:
                    pass

        page.on('response', handle_response)
        await page.goto(catalog_url, wait_until='networkidle')
        await browser.close()

    return products

Якщо API повертає JSON напряму — можна звертатися до нього, минаючи браузер, що в 10–20 разів швидше. Для пошуку ендпоінта — DevTools Network вкладка при ручному переході по каталогу.

Як працює парсинг SPA з XHR?

У SPA основна складність — не HTML, а API-запити, які підвантажують дані. Ми перехоплюємо ці запити через Playwright і отримуємо чистий JSON. Це надійніше, ніж розбирати динамічно згенерований DOM. Якщо API відкритий — звертаємося до нього напряму, економлячи ресурси.

Пагінація та повний обхід

Для пагінації через ?page=N — послідовний обхід до порожньої сторінки:

async def scrape_full_catalog(base_url: str) -> list[dict]:
    all_products = []
    page_num = 1

    async with httpx.AsyncClient() as session:
        while True:
            url = f'{base_url}?page={page_num}'
            html = await fetch_page(session, url)
            products = await parse_catalog_page(html, base_url)

            if not products:
                break

            all_products.extend(products)
            page_num += 1
            await asyncio.sleep(random.uniform(1.5, 3.0))  # ввічлива затримка

    return all_products

Для категорійного дерева — спочатку рекурсивний збір всіх URL категорій, потім обхід кожної категорії з пагінацією.

Зберігання та інкрементальне оновлення

CREATE TABLE competitor_products (
  id           SERIAL PRIMARY KEY,
  source       VARCHAR(100) NOT NULL,      -- 'competitor_a', 'competitor_b'
  external_id  VARCHAR(255) NOT NULL,
  title        TEXT NOT NULL,
  price        DECIMAL(10,2),
  price_sale   DECIMAL(10,2),
  in_stock     BOOLEAN DEFAULT TRUE,
  category     VARCHAR(500),
  url          TEXT NOT NULL,
  image_url    TEXT,
  attributes   JSONB DEFAULT '{}',
  first_seen   TIMESTAMPTZ DEFAULT NOW(),
  last_seen    TIMESTAMPTZ DEFAULT NOW(),
  UNIQUE(source, external_id)
);

CREATE TABLE competitor_price_history (
  id         BIGSERIAL PRIMARY KEY,
  product_id INT REFERENCES competitor_products(id),
  price      DECIMAL(10,2),
  price_sale DECIMAL(10,2),
  in_stock   BOOLEAN,
  scraped_at TIMESTAMPTZ DEFAULT NOW()
);

CREATE INDEX ON competitor_price_history(product_id, scraped_at DESC);

При повторному обході — INSERT ... ON CONFLICT (source, external_id) DO UPDATE SET last_seen = NOW(), price = EXCLUDED.price, .... Запис в історію робиться тільки якщо ціна або наявність змінилися (порівняння з останнім записом через LAG() або зберігання price в основній таблиці).

Розклад та сповіщення

Celery Beat або Node.js cron. Рекомендована частота для каталогу конкурента — раз на 4–12 годин, залежно від динаміки цін у ніші. Для маркетплейсів з цінами, що швидко змінюються, — раз на годину для топ-позицій.

Сповіщення при зниженні ціни конкурента нижче вашої — SQL-запит або тригер PostgreSQL з повідомленням у Slack/Telegram через webhook. Приклад запиту:

SELECT cp.title, cp.price AS competitor_price, mp.price AS my_price
FROM competitor_products cp
JOIN my_products mp ON mp.sku = cp.external_id
WHERE cp.source = 'competitor_a'
  AND cp.price < mp.price
  AND cp.in_stock = TRUE
ORDER BY (mp.price - cp.price) DESC;

Як налаштувати алерти про зниження цін конкурента?

Встановіть сигнатуру: SELECT ... WHERE cp.price < mp.price * 0.95 — алерт при зниженні на 5%.
Налаштуйте webhook у Telegram/Slack.
Запускайте SQL-запит після кожного обходу та надсилайте результат.

Ми реалізуємо цю логіку у складі парсера: ви отримуєте повідомлення в месенджер з таблицею товарів, де конкурент став дешевше.

Як забезпечити безперебійну роботу парсера?

Сайти конкурентів змінюються — парсер періодично ламається. Ми налаштовуємо моніторинг: alert якщо за останній запуск зібрано менше 50% від середньої кількості товарів. При зміні структури — оновлення зазвичай займає 2–4 години. Гарантуємо підтримку та адаптацію під нові версії сайтів.

Що входить у роботу

Вичерпний аналіз цільового сайту (структура, захист, API)
Розробка парсера з урахуванням пагінації, категорій, інкрементального оновлення
Налаштування бази даних для зберігання історії цін та асортименту
Організація розкладу (cron) та алертів (Telegram/Slack)
Документація з експлуатації та доступам
Навчання вашого співробітника роботі з системою
Гарантійна підтримка 1 місяць та реагування на збої 2–4 години

Оцінимо ваш проєкт — пишіть, ми запропонуємо оптимальне рішення під ключ. Замовте розробку парсера та отримайте інструмент, який принесе реальну користь у конкурентній боротьбі. Wikipedia: Web scraping

Послуги бекенд-розробки: production-grade надійність

На production-сервері о 3:14 ночі черга Laravel Jobs перестала оброблятися — 40 000 необроблених завдань у Redis. Причина: worker упав через memory leak у статичній змінній Eloquent observer, supervisor не перезапустив через misconfigured stopwaitsecs. Ми розбирали такий інцидент на проекті з 500 RPS: діагностика 4 години, фікс — 20 хвилин. Щоб ви не втрачали гроші, пропонуємо послуги бекенд-розробки з акцентом на production-grade надійність — 10+ років досвіду, 50+ проектів, 5 років на ринку. Оцінимо ваш проект за 2 дні.

Які проблеми вирішуємо

N+1 запити: головний вбивця швидкості

N+1 — найпоширеніша причина повільних сторінок у Laravel-додатках. Стандартна історія: сторінка працювала нормально на dev з 10 записами, на production з 10 000 — 8-секундне завантаження.

Laravel Debugbar у dev-оточенні показує кількість запитів. Більше 20 — сигнал для audit.

Model::preventLazyLoading(! app()->isProduction());

Telescope для профілювання: логує всі запити, jobs, mail, notifications з деталізацією. Після впровадження eager loading час завантаження сторінки падає з 8 с до 0.3 с — у 27 разів.

Memory leak у статичних змінних

У Laravel Octane або Swoole додаток тримається в пам’яті між запитами. Статичні змінні не скидаються — призводять до неконтрольованого росту пам’яті. Використовуємо defer-функції та контейнерні біндинги для коректного скидання стану.

Неправильний connection pool

Rails, Laravel, Django відкривають нове з'єднання PostgreSQL на кожен PHP/Python процес. 100 воркерів — 100 з'єднань. PostgreSQL деградує від 200+ активних з'єднань через overhead на управління.

PgBouncer у transaction pooling: 1000 воркерів → 20–50 реальних з'єднань. Це знижує latency на 40% та зменшує витрати на хостинг на 30% — при середній вартості хостингу $2,000/міс економить $600/міс. GIN-індекс для JSONB до 100 разів швидший за B-tree при пошуку.

Як Octane справляється з високим навантаженням?

Laravel Octane (RoadRunner або Swoole) прибирає overhead bootstrap на кожен HTTP-запит. Приріст: 3–8x на синтетичних бенчмарках, 2–4x на реальних додатках. Важливо: не зберігати стан у статичних змінних — застосовуємо це на проектах >1000 RPS.

Як PostgreSQL допомагає уникнути повільних запитів?

Використовуємо composite indexes для WHERE + ORDER BY, partial indexes для фільтрів з високою селективністю, GIN-індекси для JSONB та full-text search. to_tsvector + GIN замість LIKE '%query%' — запобігає seq scan навіть на мільйонах записів. Аналізуємо плани через EXPLAIN ANALYZE та pg_stat_statements.

Як обрати стек для вашого проекту?

Стек	Коли використовувати
Laravel + Octane	CRUD, бізнес-логіка, REST/GraphQL API, адмінки
Node.js (Fastify)	Realtime WebSocket, streaming, serverless, висока I/O concurrency
Go	Високонавантажені мікросервіси (>10k RPS), gRPC, DevOps-інструменти
Django + DRF	ML-пайплайни, інтеграція з AI, складна обробка даних
Ruby on Rails	Швидкий MVP з багатим екосистемою гемів

Node.js виправданий для realtime: Laravel публікує події в Redis Pub/Sub, Node.js підписується та транслює клієнтам. Go — для goroutines (10k з'єднань на сервер — норма), але розробка повільніша, ніж Laravel.

Чому Redis критичний для продуктивності?

Redis виконує кілька ролей:

Роль	Деталі
Кеш	Кешування результатів важких запитів, фрагментів HTML
Черги	Backend для Laravel Queue / Celery
Session store	Distributed sessions в multi-instance оточенні
Pub/Sub	Realtime події між сервісами
Rate limiting	Sliding window counters для API throttling
Leaderboards	Sorted Sets для рейтингів

Redis Cluster для горизонтального масштабування, Sentinel для автоматичного failover. Замовте консультацію щодо оптимізації Redis для вашого проекту.

Що входить в роботу під ключ

Архітектурне проектування (документація API, схема БД, діаграма сервісів)
Реалізація за узгодженим ТЗ з code review
Налаштування CI/CD (GitHub Actions, Docker), моніторингу (Sentry, Grafana), алертингу
Навантажувальне тестування (k6, wrk) зі звітом
Передача вихідних кодів, доступів, інструкція з деплою
Навчання команди замовника (2–3 сесії)
Гарантійна підтримка 1 місяць після здачі

Орієнтири по термінах

Задача	Термін
REST API для мобільного/SPA (середня складність)	6–12 тижнів
Backend зі складною бізнес-логікою + інтеграції	12–20 тижнів
Високонавантажений сервіс на Go	8–16 тижнів
Міграція legacy PHP на Laravel	16–32 тижні

Вартість розраховується індивідуально після аналізу вимог до навантаження, інтеграцій та бізнес-логіки. Зв'яжіться з нами для безкоштовного аудиту вашого поточного backend — отримайте план оптимізації за 2 дні. Замовте консультацію та дізнайтеся, як знизити витрати на інфраструктуру на 30% без втрати продуктивності.