Настройка мониторинга и алертов на сбои парсинга
Парсер упал в 3 ночи, данные перестали обновляться, и никто не узнал об этом до утра — классическая история. Мониторинг парсинга — это не «поставить Prometheus и забыть», это продуманная система сигналов: что именно сломалось, насколько критично, кому сообщить и в какой форме.
Что нужно мониторить
Три класса проблем с разной критичностью:
Полный сбой — парсер упал, данные вообще не поступают. Обнаруживается по last_successful_run timestamp.
Частичный сбой — парсер работает, но данные неполные или некорректные. Труднее обнаружить, опаснее всего (тихая ошибка хуже явной).
Деградация — парсер работает медленнее нормы, данные с задержкой, rate limit ошибки накапливаются.
Heartbeat метрика: основа мониторинга
Каждый запуск парсера должен фиксировать результат:
class ScraperMonitor {
constructor(private db: Database, private alerter: AlertService) {}
async recordRun(scraperId: string, result: ScraperResult): Promise<void> {
await this.db('scraper_runs').insert({
scraper_id: scraperId,
started_at: result.startedAt,
finished_at: result.finishedAt,
duration_ms: result.finishedAt.getTime() - result.startedAt.getTime(),
records_fetched: result.recordsFetched,
records_saved: result.recordsSaved,
errors_count: result.errors.length,
status: result.errors.length === 0 ? 'success' : 'partial_failure',
error_details: result.errors.length > 0 ? JSON.stringify(result.errors) : null,
})
await this.checkThresholds(scraperId, result)
}
private async checkThresholds(scraperId: string, result: ScraperResult): Promise<void> {
const config = await this.getScraperConfig(scraperId)
// Слишком мало записей — возможно API вернул пустой ответ или изменилась структура
if (result.recordsFetched < config.minExpectedRecords) {
await this.alerter.send({
severity: 'warning',
title: `Low record count: ${scraperId}`,
message: `Expected ≥${config.minExpectedRecords}, got ${result.recordsFetched}`,
})
}
// Слишком медленно
if (result.finishedAt.getTime() - result.startedAt.getTime() > config.maxDurationMs) {
await this.alerter.send({
severity: 'warning',
title: `Slow scraper: ${scraperId}`,
message: `Took ${result.finishedAt.getTime() - result.startedAt.getTime()}ms, threshold ${config.maxDurationMs}ms`,
})
}
}
}
Детекция staleness: данные устарели
Основная проверка — когда последний раз успешно обновлялись данные:
-- Скраперы, которые не обновлялись дольше ожидаемого интервала
SELECT
sc.id,
sc.name,
sc.expected_interval_minutes,
MAX(sr.finished_at) AS last_success,
EXTRACT(EPOCH FROM (NOW() - MAX(sr.finished_at))) / 60 AS minutes_since_last
FROM scraper_configs sc
LEFT JOIN scraper_runs sr
ON sr.scraper_id = sc.id AND sr.status = 'success'
GROUP BY sc.id, sc.name, sc.expected_interval_minutes
HAVING EXTRACT(EPOCH FROM (NOW() - MAX(sr.finished_at))) / 60 > sc.expected_interval_minutes * 1.5
ORDER BY minutes_since_last DESC;
Этот запрос запускается каждые 5 минут через отдельный watchdog процесс. Если воркер сам сломан — он не сможет сообщить о своей поломке, поэтому watchdog должен быть независимым процессом.
Алертинг: каналы и приоритеты
class AlertService {
async send(alert: Alert): Promise<void> {
const handlers = this.getHandlersForSeverity(alert.severity)
await Promise.all(handlers.map(h => h.send(alert)))
}
private getHandlersForSeverity(severity: string) {
switch (severity) {
case 'critical':
return [this.telegram, this.pagerDuty] // будит людей
case 'warning':
return [this.telegram] // в рабочее время
case 'info':
return [this.slackChannel] // для логов
}
}
}
class TelegramAlerter {
async send(alert: Alert): Promise<void> {
const emoji = alert.severity === 'critical' ? '🔴' : '🟡'
const text = `${emoji} *${alert.title}*\n\n${alert.message}\n\n_${new Date().toISOString()}_`
await fetch(`https://api.telegram.org/bot${this.token}/sendMessage`, {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({
chat_id: this.chatId,
text,
parse_mode: 'Markdown',
}),
})
}
}
Grafana дашборд для визуального мониторинга
Ключевые панели на дашборде:
Success rate по скраперам — процент успешных запусков за последние 24h. Если падает ниже 95% — предупреждение.
Records per run — временной ряд количества собранных записей. Аномальный провал хорошо виден на графике.
Duration heatmap — распределение времени выполнения. Медленные outlier-ы сигнализируют о проблемах с источником.
# Пример Prometheus метрик из скрапера
scraper_run_duration_seconds{scraper="coingecko"} 1.245
scraper_records_fetched_total{scraper="coingecko"} 4521
scraper_errors_total{scraper="coingecko", error_type="rate_limit"} 3
scraper_last_success_timestamp{scraper="coingecko"} 1704067200
Готовый alerting rule для Prometheus / Grafana:
groups:
- name: scraper_alerts
rules:
- alert: ScraperDown
expr: time() - scraper_last_success_timestamp > 600 # 10 минут
for: 2m
labels:
severity: critical
annotations:
summary: "Scraper {{ $labels.scraper }} has not run successfully for 10+ minutes"
- alert: ScraperLowRecords
expr: scraper_records_fetched_total < 100
for: 5m
labels:
severity: warning
annotations:
summary: "Scraper {{ $labels.scraper }} fetching unusually few records"
Настройка базового мониторинга: Prometheus + Grafana + Telegram alerting — 1 день. Полная система с кастомными порогами для каждого скрапера, дашбордом и PagerDuty интеграцией — 2-3 дня.







