Реалізація обходу захисту від парсингу (CAPTCHA, rate limiting)

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми
Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори
Сайти або веб-програми електронної комерції
Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів
Веб-програми для управління бізнес-процесами
CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації
Сайти або веб-програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Пропоновані послуги
Показано 1 з 1 послугУсі 2065 послуг
Реалізація обходу захисту від парсингу (CAPTCHA, rate limiting)
Складна
~3-5 робочих днів
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    874
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851

Реалізація обходу захисту від парсинга (CAPTCHA, rate limiting)

Промислові захисти від парсинга—DataDome, Cloudflare Bot Management, PerimeterX, Akamai Bot Manager—аналізують поведінку користувачів по десяткам сигналів одночасно. Обхід вимагає розуміння конкретної системи захисту та застосування кількох технік у зв'язці.

Класифікація захисту

Рівень 1—Rate limiting. Проста захист по IP: більш N запитів у секунду → блокування. Вирішується прокси-ротацією та зниженням частоти запитів.

Рівень 2—Fingerprinting браузера. Перевірка navigator.webdriver, canvas fingerprint, WebGL рендеринг, аудіо контекст, список плагінів. Детектує headless-браузери без маскування.

Рівень 3—Поведінковий аналіз. ML-моделі на стороні захисту: паттерни руху миші, таймінги між діями, порядок подій. Розрізняє бота від людини навіть при правильному fingerprint.

Рівень 4—CAPTCHA. Візуальні або поведінкові завдання. Google reCAPTCHA v2/v3, hCaptcha, Arkose Labs (FunCaptcha), Cloudflare Turnstile.

Обхід rate limiting

import asyncio
import random
from aiohttp import ClientSession

async def fetch_with_delay(session, url, semaphore):
    async with semaphore:
        await asyncio.sleep(2 + random.gauss(1, 0.5))  # нормальне розподіл
        async with session.get(url) as resp:
            return await resp.text()

semaphore = asyncio.Semaphore(3)  # максимум 3 одночасних запиту

Випадкові затримки з нормальним розподілом значно ефективніше фіксованих: паттерн ближче до людського.

Stealth для Playwright

const { chromium } = require('playwright');
const { stealth } = require('playwright-stealth');

const browser = await chromium.launch({
  args: [
    '--disable-blink-features=AutomationControlled',
    '--no-sandbox',
  ]
});
const context = await browser.newContext({
  userAgent: getRandomUserAgent(),
  locale: 'uk-UA',
  timezoneId: 'Europe/Kyiv',
  geolocation: { longitude: 30.5238, latitude: 50.4501 },
  permissions: ['geolocation'],
});
await stealth(context);

playwright-stealth патчить більш 30 детектуємих полів: navigator.webdriver, window.chrome, navigator.languages, canvas noise та інші.

Рішення CAPTCHA

Автоматичне рішення через сервіси:

Сервіс Тип CAPTCHA Час Модель
2captcha reCAPTCHA v2/v3, hCaptcha, Turnstile 5–30 сек Люди
Anti-Captcha reCAPTCHA v2/v3, ImageToText 7–15 сек Люди
CapSolver reCAPTCHA v3, Arkose Labs 1–3 сек AI
NopeCHA hCaptcha, reCAPTCHA 2–10 сек AI
from twocaptcha import TwoCaptcha

solver = TwoCaptcha(API_KEY)

# reCAPTCHA v2
result = solver.recaptcha(
    sitekey='6LfXXXXXXXXXXXXXXXXXXXXX',
    url='https://example.com/page'
)
token = result['code']  # вставляємо у форму

Для reCAPTCHA v3 потрібен токен з високим score. CapSolver спеціалізується саме на цьому.

Прокси-інфраструктура

Якість прокси критично. Ієрархія по ефективності:

  1. Резидентні прокси (Bright Data, Oxylabs, Smartproxy)—реальні IP домашніх користувачів. Найдорожчі, але практично не блокуються
  2. Мобільні прокси—4G/5G IP операторів. Високий trust score, дешевше резидентних
  3. ISP прокси (статичні резидентні)—постійний IP провайдера
  4. Дата-центр прокси—дешеві, але легко блокуються серйозними захистами
class ProxyRotator:
    def __init__(self, proxies: list):
        self.proxies = proxies
        self.stats = {p: {'success': 0, 'fail': 0} for p in proxies}

    def get_best_proxy(self):
        # вибираємо прокси з найбільшим відсотком успіху
        return max(
            self.proxies,
            key=lambda p: self.stats[p]['success'] /
                          max(self.stats[p]['success'] + self.stats[p]['fail'], 1)
        )

    def report_success(self, proxy):
        self.stats[proxy]['success'] += 1

    def report_fail(self, proxy):
        self.stats[proxy]['fail'] += 1

Робота з куками та сесіями

Сесійні куки—важливий сигнал для захисту. Бот, який не накопичує куки через кілька сторінок, виглядає підозріло.

# Збереження та відновлення контексту Playwright
await context.storage_state(path='session.json')

# У наступному запуску
context = await browser.new_context(storage_state='session.json')

Для складних сайтів: спочатку «гріємо» сесію—відвідуємо головну, пару випадкових сторінок, імітуємо скролл—потім переходимо до цільових URL.

Виявлення зміни алгоритму захисту

Захисти оновлюють алгоритми. Потрібен мониторинг:

  • Трекинг HTTP-статусів: ріст 403/429/503→тригер перевірки
  • Порівняння fingerprint-запитів (JavaScript, який завантажує DataDome)
  • Алерти при падінні відсотка успішних парсингів нижче порога

Терміни

Базовий обхід rate limiting + stealth: 3–5 днів. Повна система з CAPTCHA-солвером, прокси-ротатором та мониторингом: 12–18 днів.