Реалізація обходу захисту від парсинга (CAPTCHA, rate limiting)
Промислові захисти від парсинга—DataDome, Cloudflare Bot Management, PerimeterX, Akamai Bot Manager—аналізують поведінку користувачів по десяткам сигналів одночасно. Обхід вимагає розуміння конкретної системи захисту та застосування кількох технік у зв'язці.
Класифікація захисту
Рівень 1—Rate limiting. Проста захист по IP: більш N запитів у секунду → блокування. Вирішується прокси-ротацією та зниженням частоти запитів.
Рівень 2—Fingerprinting браузера. Перевірка navigator.webdriver, canvas fingerprint, WebGL рендеринг, аудіо контекст, список плагінів. Детектує headless-браузери без маскування.
Рівень 3—Поведінковий аналіз. ML-моделі на стороні захисту: паттерни руху миші, таймінги між діями, порядок подій. Розрізняє бота від людини навіть при правильному fingerprint.
Рівень 4—CAPTCHA. Візуальні або поведінкові завдання. Google reCAPTCHA v2/v3, hCaptcha, Arkose Labs (FunCaptcha), Cloudflare Turnstile.
Обхід rate limiting
import asyncio
import random
from aiohttp import ClientSession
async def fetch_with_delay(session, url, semaphore):
async with semaphore:
await asyncio.sleep(2 + random.gauss(1, 0.5)) # нормальне розподіл
async with session.get(url) as resp:
return await resp.text()
semaphore = asyncio.Semaphore(3) # максимум 3 одночасних запиту
Випадкові затримки з нормальним розподілом значно ефективніше фіксованих: паттерн ближче до людського.
Stealth для Playwright
const { chromium } = require('playwright');
const { stealth } = require('playwright-stealth');
const browser = await chromium.launch({
args: [
'--disable-blink-features=AutomationControlled',
'--no-sandbox',
]
});
const context = await browser.newContext({
userAgent: getRandomUserAgent(),
locale: 'uk-UA',
timezoneId: 'Europe/Kyiv',
geolocation: { longitude: 30.5238, latitude: 50.4501 },
permissions: ['geolocation'],
});
await stealth(context);
playwright-stealth патчить більш 30 детектуємих полів: navigator.webdriver, window.chrome, navigator.languages, canvas noise та інші.
Рішення CAPTCHA
Автоматичне рішення через сервіси:
| Сервіс | Тип CAPTCHA | Час | Модель |
|---|---|---|---|
| 2captcha | reCAPTCHA v2/v3, hCaptcha, Turnstile | 5–30 сек | Люди |
| Anti-Captcha | reCAPTCHA v2/v3, ImageToText | 7–15 сек | Люди |
| CapSolver | reCAPTCHA v3, Arkose Labs | 1–3 сек | AI |
| NopeCHA | hCaptcha, reCAPTCHA | 2–10 сек | AI |
from twocaptcha import TwoCaptcha
solver = TwoCaptcha(API_KEY)
# reCAPTCHA v2
result = solver.recaptcha(
sitekey='6LfXXXXXXXXXXXXXXXXXXXXX',
url='https://example.com/page'
)
token = result['code'] # вставляємо у форму
Для reCAPTCHA v3 потрібен токен з високим score. CapSolver спеціалізується саме на цьому.
Прокси-інфраструктура
Якість прокси критично. Ієрархія по ефективності:
- Резидентні прокси (Bright Data, Oxylabs, Smartproxy)—реальні IP домашніх користувачів. Найдорожчі, але практично не блокуються
- Мобільні прокси—4G/5G IP операторів. Високий trust score, дешевше резидентних
- ISP прокси (статичні резидентні)—постійний IP провайдера
- Дата-центр прокси—дешеві, але легко блокуються серйозними захистами
class ProxyRotator:
def __init__(self, proxies: list):
self.proxies = proxies
self.stats = {p: {'success': 0, 'fail': 0} for p in proxies}
def get_best_proxy(self):
# вибираємо прокси з найбільшим відсотком успіху
return max(
self.proxies,
key=lambda p: self.stats[p]['success'] /
max(self.stats[p]['success'] + self.stats[p]['fail'], 1)
)
def report_success(self, proxy):
self.stats[proxy]['success'] += 1
def report_fail(self, proxy):
self.stats[proxy]['fail'] += 1
Робота з куками та сесіями
Сесійні куки—важливий сигнал для захисту. Бот, який не накопичує куки через кілька сторінок, виглядає підозріло.
# Збереження та відновлення контексту Playwright
await context.storage_state(path='session.json')
# У наступному запуску
context = await browser.new_context(storage_state='session.json')
Для складних сайтів: спочатку «гріємо» сесію—відвідуємо головну, пару випадкових сторінок, імітуємо скролл—потім переходимо до цільових URL.
Виявлення зміни алгоритму захисту
Захисти оновлюють алгоритми. Потрібен мониторинг:
- Трекинг HTTP-статусів: ріст 403/429/503→тригер перевірки
- Порівняння fingerprint-запитів (JavaScript, який завантажує DataDome)
- Алерти при падінні відсотка успішних парсингів нижче порога
Терміни
Базовий обхід rate limiting + stealth: 3–5 днів. Повна система з CAPTCHA-солвером, прокси-ротатором та мониторингом: 12–18 днів.







