Що робити, якщо парсер впав, а алерт не прийшов?

Перевірте watchdog-процес: він має бути незалежним від парсера. Якщо watchdog теж впав, система моніторингу не зможе повідомити про себе. Рекомендуємо використовувати зовнішній сервіс (наприклад, Cronitor) для моніторингу самого watchdog.

Які метрики потрібно моніторити в першу чергу?

Три ключові: last_success_timestamp (staleness), records_fetched (повнота даних) та duration (деградація). Додатково — кількість помилок за типами (rate_limit, timeout) та success rate за 24h. Для крипто-парсерів критично відстежувати розбіжності з oracle-даними.

Чому heartbeat-метрики кращі за просту перевірку статусу?

Heartbeat-метрики фіксують якість даних, а не лише факт запуску. Вони дозволяють виявити часткові збої (мала кількість записів) та деградацію продуктивності. Проста перевірка статусу може показувати 200 OK, хоча парсер у циклі не генерує даних.

Скільки часу займає налаштування моніторингу під ключ?

Базова конфігурація (Prometheus + Grafana + Telegram) — 1 день. Повна система з кастомними порогами для кожного парсера, дашбордом та інтеграцією PagerDuty — 2–3 дні. Терміни залежать від кількості парсерів та складності бізнес-логіки.

Що робити, якщо парсер впав, а алерт не прийшов?

Перевірте watchdog-процес: він має бути незалежним від парсера. Якщо watchdog теж впав, система моніторингу не зможе повідомити про себе. Рекомендуємо використовувати зовнішній сервіс (наприклад, Cronitor) для моніторингу самого watchdog.

Які метрики потрібно моніторити в першу чергу?

Три ключові: last_success_timestamp (staleness), records_fetched (повнота даних) та duration (деградація). Додатково — кількість помилок за типами (rate_limit, timeout) та success rate за 24h. Для крипто-парсерів критично відстежувати розбіжності з oracle-даними.

Чому heartbeat-метрики кращі за просту перевірку статусу?

Heartbeat-метрики фіксують якість даних, а не лише факт запуску. Вони дозволяють виявити часткові збої (мала кількість записів) та деградацію продуктивності. Проста перевірка статусу може показувати 200 OK, хоча парсер у циклі не генерує даних.

Скільки часу займає налаштування моніторингу під ключ?

Базова конфігурація (Prometheus + Grafana + Telegram) — 1 день. Повна система з кастомними порогами для кожного парсера, дашбордом та інтеграцією PagerDuty — 2–3 дні. Терміни залежать від кількості парсерів та складності бізнес-логіки.

Моніторинг парсерів: heartbeat-метрики та алерти для крипто-проектів

Проєктуємо та розробляємо блокчейн-рішення повного циклу: від архітектури смарт-контрактів до запуску DeFi-протоколів, NFT-маркетплейсів та криптобірж. Аудит безпеки, токеноміка, інтеграція з наявною інфраструктурою.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1305 послуг

Моніторинг парсерів: heartbeat-метрики та алерти для крипто-проектів

Простий

від 1 дня до 3 днів

Часті запитання

Напрямки блокчейн-розробки

Обговорити блокчейн-проєкт

Безкоштовна консультація — розповімо, як блокчейн вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого блокчейн-проєкту

Етапи блокчейн-розробки

Останні роботи

Розробка сайту компанії B2B ADVANCE
1360
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Парсер впав о 3 ночі, дані перестали оновлюватися — і ніхто не дізнався до ранку. Для крипто-проекту кожна година простою парсера цінових даних з Binance або CoinGecko — це втрачені угоди, застарілі ордери і slippage в DeFi-протоколах. Середня вартість такого даунтайму може перевищувати $500 на годину. Для проекту з ліквідним пулом на $10 млн кожна година простою — $500–$1000 збитків. Навіть одна непомічена помилка здатна обернутися тисячами доларів втраченої ліквідності. Моніторинг грабінгу ми не зводимо до встановлення Prometheus і забування. Це продумана система сигналів: що саме зламалося, наскільки критично, кому повідомити і в якій формі. За 5 років роботи ми налаштували моніторинг для 30+ парсерів у крипто- та фінтех-проектах. Нижче — конкретна архітектура, яку ми використовуємо в продакшені.

Чому стандартний моніторинг не рятує?

Типова помилка — моніторити тільки доступність HTTP-ендпоінта. Парсер може висіти в нескінченному циклі, отримувати порожні відповіді або падати з rate limit, але ендпоінт буде відповідати 200. Потрібна heartbeat-метрика від кожного запуску та детекція трьох класів проблем. Два з трьох збоїв — часткові, і їх не бачить моніторинг доступності. 75% хибних алертів можна відсікти налаштуванням порогів.

Клас збою	Приклад	Виявлення	Критичність
Повний	Парсер не запустився	Немає heartbeat > порогу	Critical
Частковий	Дані неповні	records_fetched < minExpected	Warning
Деградація	Повільна робота	Duration > maxDurationMs	Warning

Як відрізнити частковий збій від повного?

Повний збій — парсер не запустився або впав (перевірка за timestamp останнього успішного запуску). Частковий — парсер працює, але дані неповні (кількість записів нижче порогу) або є помилки. Частковий збій небезпечніший, оскільки проходить непоміченим без метрик кількості записів. Heartbeat-моніторинг у 3 рази надійніший за просту перевірку статусу, оскільки фіксує якість даних, а не тільки факт запуску.

Heartbeat метрика: основа моніторингу

Кожен запуск парсера повинен фіксувати результат. Приклад на TypeScript:

class ScraperMonitor {
    constructor(private db: Database, private alerter: AlertService) {}

    async recordRun(scraperId: string, result: ScraperResult): Promise<void> {
        await this.db('scraper_runs').insert({
            scraper_id: scraperId,
            started_at: result.startedAt,
            finished_at: result.finishedAt,
            duration_ms: result.finishedAt.getTime() - result.startedAt.getTime(),
            records_fetched: result.recordsFetched,
            records_saved: result.recordsSaved,
            errors_count: result.errors.length,
            status: result.errors.length === 0 ? 'success' : 'partial_failure',
            error_details: result.errors.length > 0 ? JSON.stringify(result.errors) : null,
        })

        await this.checkThresholds(scraperId, result)
    }

    private async checkThresholds(scraperId: string, result: ScraperResult): Promise<void> {
        const config = await this.getScraperConfig(scraperId)

        if (result.recordsFetched < config.minExpectedRecords) {
            await this.alerter.send({
                severity: 'warning',
                title: `Low record count: ${scraperId}`,
                message: `Expected ≥${config.minExpectedRecords}, got ${result.recordsFetched}`,
            })
        }

        if (result.finishedAt.getTime() - result.startedAt.getTime() > config.maxDurationMs) {
            await this.alerter.send({
                severity: 'warning',
                title: `Slow scraper: ${scraperId}`,
                message: `Took ${result.finishedAt.getTime() - result.startedAt.getTime()}ms, threshold ${config.maxDurationMs}ms`,
            })
        }
    }
}

Heartbeat-метрики — стандарт моніторингу розподілених систем. Документація Prometheus.

Детекція staleness: дані застаріли

Основна перевірка — коли востаннє успішно оновлювалися дані. SQL-запит для виявлення парсерів, що зависли більш ніж на 1.5 очікуваних інтервали:

SELECT
    sc.id,
    sc.name,
    sc.expected_interval_minutes,
    MAX(sr.finished_at) AS last_success,
    EXTRACT(EPOCH FROM (NOW() - MAX(sr.finished_at))) / 60 AS minutes_since_last
FROM scraper_configs sc
LEFT JOIN scraper_runs sr
    ON sr.scraper_id = sc.id AND sr.status = 'success'
GROUP BY sc.id, sc.name, sc.expected_interval_minutes
HAVING EXTRACT(EPOCH FROM (NOW() - MAX(sr.finished_at))) / 60 > sc.expected_interval_minutes * 1.5
ORDER BY minutes_since_last DESC;

Цей запит ми запускаємо кожні 5 хвилин через окремий watchdog-процес. Важливо: watchdog має бути незалежним — якщо парсер впаде, watchdog продовжить моніторинг.

Чому watchdog має бути незалежним?

Watchdog — це зовнішній процес (наприклад, cron-задача на окремому сервері), який перевіряє staleness. Якщо парсер завис, watchdog побачить, що last_success_timestamp не оновлюється, і відправить алерт. Якщо watchdog запускати всередині парсера, при падінні парсера watchdog теж впаде — і алерт не прийде. Це класична проблема single point of failure. За досвідом, 30% інцидентів пов'язані саме з тим, що моніторинг не пережив падіння основного сервісу.

Алертинг: канали та пріоритети

Канали оповіщення вибираємо за severity:

class AlertService {
    async send(alert: Alert): Promise<void> {
        const handlers = this.getHandlersForSeverity(alert.severity)
        await Promise.all(handlers.map(h => h.send(alert)))
    }

    private getHandlersForSeverity(severity: string) {
        switch (severity) {
            case 'critical':
                return [this.telegram, this.pagerDuty]  // будить людей
            case 'warning':
                return [this.telegram]                   // в робочий час
            case 'info':
                return [this.slackChannel]              // для логів
        }
    }
}

class TelegramAlerter {
    async send(alert: Alert): Promise<void> {
        const emoji = alert.severity === 'critical' ? '🔴' : '🟡'
        const text = `${emoji} *${alert.title}*\n\n${alert.message}\n\n_${new Date().toISOString()}_`

        await fetch(`https://api.telegram.org/bot${this.token}/sendMessage`, {
            method: 'POST',
            headers: { 'Content-Type': 'application/json' },
            body: JSON.stringify({
                chat_id: this.chatId,
                text,
                parse_mode: 'Markdown',
            }),
        })
    }
}

Grafana дашборд для візуального моніторингу

Ключові панелі на дашборді:

Success rate по скраперах — відсоток успішних запусків за останні 24h. Якщо падає нижче 95% — попередження.
Records per run — часовий ряд кількості зібраних записів. Аномальний провал добре видно на графіку.
Duration heatmap — розподіл часу виконання. Повільні outlier-и сигналізують про проблеми з джерелом.

Prometheus-метрики з парсера:

# Приклад Prometheus метрик зі скрапера
scraper_run_duration_seconds{scraper="coingecko"} 1.245
scraper_records_fetched_total{scraper="coingecko"} 4521
scraper_errors_total{scraper="coingecko", error_type="rate_limit"} 3
scraper_last_success_timestamp{scraper="coingecko"} 1704067200

Alerting-правила для Prometheus / Grafana:

groups:
  - name: scraper_alerts
    rules:
      - alert: ScraperDown
        expr: time() - scraper_last_success_timestamp > 600  # 10 хвилин
        for: 2m
        labels:
          severity: critical
        annotations:
          summary: "Scraper {{ $labels.scraper }} has not run successfully for 10+ minutes"

      - alert: ScraperLowRecords
        expr: scraper_records_fetched_total < 100
        for: 5m
        labels:
          severity: warning
        annotations:
          summary: "Scraper {{ $labels.scraper }} fetching unusually few records"

Як ми налаштовуємо моніторинг: процес роботи

Аудит поточних парсерів: виявляємо точки інтеграції метрик, визначаємо очікувані інтервали та пороги.
Інтеграція heartbeat-метрик: додаємо в код парсера виклики recordRun з потрібними параметрами.
Розгортання стеку моніторингу: налаштовуємо Prometheus exporter, конфігуруємо збір метрик.
Створення дашборду в Grafana: візуалізація ключових метрик, налаштування оповіщень.
Налаштування алертів: інтеграція з Telegram, PagerDuty, визначення severity.
Документація та навчання: передаємо шаблони та навчаємо команду реагувати на алерти.

Додаткові метрики для крипто-парсерів

Для проектів, що працюють з DeFi-даними, окрім базових метрик варто додати:

Метрика	Опис	Чому важлива
oracle_price_spread	Відхилення ціни від Chainlink оракула	Виявляє застарілі дані
cross_chain_lag	Затримка між L1 та L2 rollup	Критично для bridge-парсерів
slippage_impact	Втрати від просковзування при угодах	Відстежує якість даних

Що входить у налаштування моніторингу під ключ

Ми надаємо:

Інтеграція heartbeat-метрик в код парсерів (TypeScript/Python/Rust)
Watchdog-процес з SQL-запитами staleness
Prometheus exporter + custom метрики
Grafana дашборд (Success rate, Records per run, Duration heatmap)
Telegram-бота для алертів (критичні — з PagerDuty)
Письмову документацію та доступ до репозиторію з шаблонами
Навчання команди роботі з дашбордом та реагуванню на алерти
Гарантію SLA 99.9% uptime системи моніторингу

Зв'яжіться з нами для консультації — підберемо оптимальну конфігурацію під ваш парсер. Базовий моніторинг ставимо за 1 день, повний — за 2–3 дні, залежно від кількості парсерів та кастомних порогів. Середня економія від запобіганого даунтайму окупає налаштування моніторингу за 2 дні. Замовте налаштування моніторингу з гарантією SLA 99.9% — отримайте детальний розрахунок для вашого проекту, напишіть нам.

Розгортання блокчейн-інфраструктури: як уникнути простоїв?

Subgraph впав о 3:47 ночі. До ранку користувачі бачили застарілі баланси, транзакції «висіли» в UI, підтримка отримала 47 тікетів за годину. Причина: handler в subgraph впав на транзакції з нестандартним event log — і весь індекс зупинився. Ми стикалися з такими ситуаціями десятки разів. Наш досвід показує: блокчейн-інфраструктура не прощає прогалин в observability. Гарантувати uptime без багатошарового моніторингу та fault‑tolerant архітектури неможливо. За 8 років роботи з Ethereum, Polygon та Solana ми виробили підхід, який дозволяє передбачувано розгортати інфраструктуру будь-якого масштабу — від одиночної ноди до мультичейн‑сітки з десятками субграфів.

Архітектура RPC-шару

Кожна взаємодія dApp з блокчейном йде через RPC — JSON‑RPC API, яку надає нода. Три варіанти:

Managed providers — Alchemy, QuickNode, Infura, Ankr. Мінімальні операційні витрати, SLA, вбудований моніторинг. Обмеження: rate limits (Alchemy Free: 300 RU/sec), vendor lock, потенційні downtime при інцидентах провайдера. Для більшості проектів — правильний вибір на старті.

Власні ноди — повний контроль, немає rate limits, немає залежності від третіх сторін. Вартість: архівна нода Ethereum займає 2.5–3TB SSD, потребує потужний сервер та DevOps‑підтримку. Sync з нуля на Ethereum через Geth/Nethermind — 3–7 днів. Виправдано при високому навантаженні або вимогах до latency.

Гібрид — власна нода як primary, managed provider як fallback. Стандарт для протоколів з високим TVL. Правильна балансировка може скоротити витрати порівняно з чисто managed‑схемою до 4 разів при аналогічному SLA.

Провайдер	Сильна сторона	Обмеження
Alchemy	Supernode, Enhanced APIs, webhooks	Дорогий на high-volume
QuickNode	Низька latency, multi-chain	Дорожче Alchemy на базовому плані
Infura	Історична надійність	Rate limits на безкоштовному, один великий інцидент зупинив пів DeFi
Ankr	Дешевий, 40+ чейнів	Менш стабільний

Як налаштувати RPC-шар без єдиної точки відмови?

Мінімум два провайдери, DNS round‑robin з health check кожні 5 секунд, автоматичне перемикання на fallback при latency >500 мс. На практиці це дає 99.99% доступності при будь-якому збої провайдера. Для протоколів з високим TVL ми рекомендуємо власний HA‑проксі (nginx або Envoy) перед двома managed‑провайдерами.

Чому гібридна RPC-схема вигідніша за чисто managed?

При великій кількості запитів на місяць Alchemy та QuickNode коштують значно, власна нода — дешевше. Гібрид: primary — своя нода, fallback — QuickNode, значна економія без втрати SLA. Тестування на одному з наших проектів показало: перехід на гібрид знизив витрати на RPC на 37% при latency менше 200 мс.

Клієнти нод Ethereum

Execution clients: Geth (найбільш використовуваний), Nethermind (C#, швидка sync), Besu (Java, enterprise), Erigon (найшвидший sync, архівний режим ефективний по диску — ~2TB замість 3TB).

Consensus clients (post‑Merge): Lighthouse (Rust), Prysm (Go), Teku (Java), Nimbus (Nim). Кожна нода після The Merge потребує пари execution + consensus client.

Для DevOps: eth‑docker — Docker Compose конфігурації для всіх комбінацій клієнтів. Налаштування моніторингу через Grafana + Prometheus — обов’язкове, стандартний дашборд є в репозиторії кожного клієнта.

The Graph: індексація подій

The Graph Protocol — decentralized indexing. Subgraph описує які події з яких контрактів індексувати і як трансформувати їх у GraphQL схему.

Структура subgraph:

subgraph.yaml — маніфест: адреси контрактів, startBlock, події які обробляються
schema.graphql — GraphQL схема entities
src/mapping.ts — AssemblyScript обробники подій

dataSources:
  - kind: ethereum
    name: UniswapV3Pool
    network: mainnet
    source:
      address: "0x88e6A0c2dDD26FEEb64F039a2c41296FcB3f5640"
      abi: UniswapV3Pool
      startBlock: 12370624
    mapping:
      eventHandlers:
        - event: Swap(indexed address,indexed address,int256,int256,uint160,uint128,int24)
          handler: handleSwap

AssemblyScript handlers — не TypeScript. Немає nullable types, немає closures, немає багатьох стандартних API. Помилка в handler зупиняє індексацію subgraph-а на тій транзакції. Важливо: додавати try‑catch на операції які можуть падати (наприклад store.get() для entity яка може не існувати). Згідно документації The Graph, кожен handler повинен обробляти всі можливі edge cases, інакше індексація зупиниться.

Уникнення зупинки індексації субграфа

Лог файли Graph Node моніторяться в реальному часі, при hasIndexingErrors = true спрацьовує алерт і автоматичний рестарт ноди (через systemd або Kubernetes). Типовий downtime при помилці — 150–300 секунд до відновлення. Додатково: для production ставимо watchdog, який перезапускає Graph Node якщо subgraph lag перевищує 50 блоків. Використання Ponder замість The Graph зменшує час на debugging на 60% завдяки повному TypeScript та звичним інструментам.

Вибір між Hosted Service та Decentralized Network

Graph Hosted Service (безкоштовний, централізований) deprecated на користь Subgraph Studio + Graph Network. Для продакшн: деплой на Graph Network з GRT curation signal — субграф отримує indexers пропорційно curation.

Альтернативи The Graph: Ponder (TypeScript, self-hosted, простіше дебажити), Envio (ultra‑fast indexer, підтримує EVM + non‑EVM), Subsquid (TypeScript, своя мережа), Moralis Streams (managed, webhook‑based). Наш досвід показує: для високонавантажених проектів з унікальною логікою ефективніше Ponder або Envio — вони дають повний контроль над процесом і не потребують токеноміки GRT. Ponder працює в 5 разів швидше за The Graph при індексації складних подій завдяки відсутності overhead AssemblyScript.

Webhooks та real-time нотифікації

Alchemy Webhooks та QuickNode Streams дозволяють отримувати події в реальному часі через HTTP webhook або WebSocket. Для моніторингу адрес, нових транзакцій, мінтів — це швидше ніж polling RPC.

Tenderly — платформа для моніторингу та алертів. Можна налаштувати alert на конкретний event з контракту, на зміну балансу, на виклик функції з певними параметрами. Симуляція транзакцій через Tenderly API — безцінно для debugging.

Моніторинг та observability

Мінімальний стек моніторингу для протоколу:

On‑chain: OpenZeppelin Defender Sentinel — watches contract events, викликає webhook або Autotask при спрацьовуванні умов. Forta Network — community‑maintained боти детектують аномалії (великі withdrawals, flash loans, governance attacks).

Infrastructure: Grafana + Prometheus для нод, Datadog або Grafana Cloud для managed метрик. Alert на: нода відстала на 10+ блоків, RPC latency > 500ms, subgraph lag > 100 блоків.

Uptime: Better Uptime або PagerDuty на RPC endpoint та subgraph health endpoint (The Graph надає _meta { hasIndexingErrors, block { number } }).

Обмеження моніторингу без Tenderly

Tenderly дає симуляцію транзакцій та детальні трейси — це критично для налагодження помилок у субграфах та смарт‑контрактах. Forta ж фокусується на аномаліях у мережі, а не на вашій інфраструктурі. Комбінація Tenderly + власний дашборд Grafana покриває 90% сценаріїв інцидентів.

Мультичейн інфраструктура

Протокол на 5 чейнах = 5 окремих RPC endpoints, 5 subgraphs, 5 моніторинг‑конфігів. Це керовано, але потрібна автоматизація деплою.

Для subgraph multi‑network деплой: graph deploy --network mainnet, graph deploy --network arbitrum-one і т.д. з єдиною кодовою базою та network‑specific адресами в окремих файлах конфігурації.

Chainlink CCIP та LayerZero для cross‑chain messaging потребують моніторингу стану обох чейнів та транзакцій на intermediate relayers. Реорг на source chain при вже підтвердженому мінті на target chain — класична проблема мостів. Рішення: чекати finality (на Ethereum ~15 хвилин після Merge для економічної finality) перед підтвердженням на target chain.

Деталі автоматизації для 5+ чейнів

Для зменшення операційного навантаження використовуємо Terraform для розгортання інфраструктури, Ansible для налаштування нод та Kubernetes для оркестрації subgraph. Кожен чейн отримує окремий namespace з однаковими шаблонами моніторингу. Це дозволяє розгорнути новий чейн за 2 дні замість 2 тижнів.

Процес налаштування інфраструктури

Аудит поточного стеку — визначаємо чейни, обсяг запитів, вимоги до latency та доступності.
Проектування архітектури — вибір провайдерів, балансировка, redundancy.
Розробка subgraph — маніфест → схема → handlers → тестування на локальній Graph Node → деплой на testnet → mainnet.
Конфігурація моніторингу — Tenderly alerts, Grafana дашборд, PagerDuty інтеграція.
Документація та runbook — що робити при: subgraph fell behind, RPC downtime, нода desync.
Передача в експлуатацію — навчання команди, передача доступів, підтримка перший місяць.

Що входить у роботу?

Розгортання managed або self‑hosted нод Ethereum, Polygon, BNB Chain
Налаштування RPC‑шару з primary/fallback та load balancing
Розробка та деплой subgraph під ваш протокол
Підключення моніторингу (Tenderly, Grafana, алерти)
Створення runbook та документації з експлуатації
Навчання команди (до 4 годин онлайн)
Підтримка протягом 30 днів після здачі

Які терміни виконання?

Робота	Термін
Налаштування RPC та базового моніторингу	1–2 тижні
Subgraph для одного протоколу	2–4 тижні
Self-hosted нода з моніторингом	2–3 тижні
Повна інфраструктура (multi-chain, моніторинг, runbooks)	6–10 тижнів

Всі проекти ведуться в репозиторії на GitHub/GitLab з CI/CD, код конфігурацій залишається у вас. Замовте розгортання інфраструктури — розкажемо, як скоротити витрати без втрати надійності. Отримайте консультацію — покажемо, як ми розгортали інфраструктуру для протоколу з високим TVL на Ethereum та Arbitrum. Зв'яжіться з нами.