Реалізація парсингу через Puppeteer/Playwright (headless browser)

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми
Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори
Сайти або веб-програми електронної комерції
Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів
Веб-програми для управління бізнес-процесами
CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації
Сайти або веб-програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Пропоновані послуги
Показано 1 з 1 послугУсі 2065 послуг
Реалізація парсингу через Puppeteer/Playwright (headless browser)
Середня
~3-5 робочих днів
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    874
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851

Реалізація парсинга через Puppeteer/Playwright (headless browser)

Headless-браузери—інструмент для парсинга сайтів, які неможливо обпрацювати статичним HTML-парсером: сторінки на React/Vue/Angular, контент з lazy loading, дані за аутентифікацією, динамічні таблиці з infinite scroll.

Puppeteer vs Playwright

Параметр Puppeteer Playwright
Браузери Chrome/Chromium Chrome, Firefox, Safari
Мова Node.js Node.js, Python, Java, C#
Auto-wait Ні (явні ожидания) Так (авто-ожидание елементів)
Швидкість розробки Середня Вище
Зрілість екосистеми Висока Що зростає

Playwright бажаніший для нових проектів: його auto-wait значно скорочує кількість помилок при парсингу—ні необхідності вручну чекати появи кожного елемента.

Типовий сценарій парсинга

// Playwright: парсинг каталогу з infinite scroll
const browser = await chromium.launch({ headless: true });
const context = await browser.newContext({
  userAgent: 'Mozilla/5.0 ...',
  viewport: { width: 1280, height: 900 }
});
const page = await context.newPage();

await page.goto('https://example.com/catalog');

// Скролл до кінця сторінки
let prevHeight = 0;
while (true) {
  const height = await page.evaluate(() => document.body.scrollHeight);
  if (height === prevHeight) break;
  await page.evaluate(() => window.scrollTo(0, document.body.scrollHeight));
  await page.waitForTimeout(1500 + Math.random() * 1000);
  prevHeight = height;
}

// Витяг даних
const items = await page.$$eval('.product-card', cards =>
  cards.map(card => ({
    title: card.querySelector('.title')?.textContent?.trim(),
    price: card.querySelector('.price')?.textContent?.trim(),
    url: card.querySelector('a')?.href
  }))
);

Оптимізація продуктивності

Запуск браузера дорогий. Для промислового парсингу:

  • Пул браузерних контекстів—один процес Chrome, кілька ізольованих контекстів
  • Вимкнення ресурсів—блокування завантаження шрифтів, картинок, аналітики через page.route()
  • Кластеризаціяplaywright-cluster або самописний пул з worker_threads

Блокування лишнього трафіку знижує час завантаження сторінки на 40–70% та витрату пам'яті.

Виявлення headless-браузерів

Сучасні захисти (DataDome, PerimeterX, Cloudflare Bot Management) детектують автоматизацію по десяткам сигналів. Основні методи обходу:

  • playwright-stealth—патчить navigator.webdriver та інші детектуємі поля
  • Реалістичні рухи миші через playwright-mouse-helper
  • Унікальні fingerprints—різні viewport, timezone, locale для кожної сесії

Терміни

Базовий скрапер одного сайту: 2–4 дня. Скрапер з обходом захисту, прокси-ротацією та мониторингом: 7–10 днів.