Як часто потрібно перевіряти heartbeat бота?

Оптимальний інтервал 30-60 секунд. Якщо бот не оновлював heartbeat довше 2 хвилин — це вже аварійна ситуація. Для алертів використовуйте час відгуку, який ви готові терпіти з урахуванням ринкового ризику.

Що робити, якщо бот не відповідає на healthcheck?

Перш за все — автоматичний перезапуск через systemd (Restart=on-failure) або Docker (--restart). Якщо перезапуск не допоміг — алерт має бути надісланий у Telegram/PagerDuty. Далі — зв'яжіться з техпідтримкою сервера.

Як налаштувати алерти в Telegram?

Створіть бота в BotFather, отримайте токен і chat_id. Вставте виклик API в місці, де ловите винятки. Для 100% доставки використовуйте watchdog на рівні ОС — окремий bash-скрипт через cron.

Чи потрібен мені повноцінний Prometheus + Grafana?

Для одного бота достатньо Uptime Kuma та Telegram-алертів. Prometheus виправданий, коли у вас кілька ботів, потрібна аналітика за угодами, P&L і відкритими позиціями у вигляді графіків.

Як захиститися від crash loop (нескінченний перезапуск)?

Використовуйте StartLimitBurst=3 у systemd або restart policies Docker з on-failure:3. Так бот не буде нескінченно падати і рестартувати, якщо помилка відтворюється. Після перевищення ліміту сервіс зупиниться до ручного втручання.

Як часто потрібно перевіряти heartbeat бота?

Оптимальний інтервал 30-60 секунд. Якщо бот не оновлював heartbeat довше 2 хвилин — це вже аварійна ситуація. Для алертів використовуйте час відгуку, який ви готові терпіти з урахуванням ринкового ризику.

Що робити, якщо бот не відповідає на healthcheck?

Перш за все — автоматичний перезапуск через systemd (Restart=on-failure) або Docker (--restart). Якщо перезапуск не допоміг — алерт має бути надісланий у Telegram/PagerDuty. Далі — зв'яжіться з техпідтримкою сервера.

Як налаштувати алерти в Telegram?

Створіть бота в BotFather, отримайте токен і chat_id. Вставте виклик API в місці, де ловите винятки. Для 100% доставки використовуйте watchdog на рівні ОС — окремий bash-скрипт через cron.

Чи потрібен мені повноцінний Prometheus + Grafana?

Для одного бота достатньо Uptime Kuma та Telegram-алертів. Prometheus виправданий, коли у вас кілька ботів, потрібна аналітика за угодами, P&L і відкритими позиціями у вигляді графіків.

Як захиститися від crash loop (нескінченний перезапуск)?

Використовуйте StartLimitBurst=3 у systemd або restart policies Docker з on-failure:3. Так бот не буде нескінченно падати і рестартувати, якщо помилка відтворюється. Після перевищення ліміту сервіс зупиниться до ручного втручання.

Моніторинг торгового бота: healthcheck, алерти, watchdog у продакшені

Проєктуємо та розробляємо блокчейн-рішення повного циклу: від архітектури смарт-контрактів до запуску DeFi-протоколів, NFT-маркетплейсів та криптобірж. Аудит безпеки, токеноміка, інтеграція з наявною інфраструктурою.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1305 послуг

Моніторинг торгового бота: healthcheck, алерти, watchdog у продакшені

Простий

~1 день

Часті запитання

Напрямки блокчейн-розробки

Обговорити блокчейн-проєкт

Безкоштовна консультація — розповімо, як блокчейн вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого блокчейн-проєкту

Етапи блокчейн-розробки

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Торговий бот, який впав о 3 ночі — це не просто пропущені угоди. Це відкриті позиції без управління, пропущені стоп-лоси та збитки в десятки відсотків капіталу. Уявіть: ваш бот заробляє 2% на день, і раптом сервер вимикається на 2 години. Втрата — 4% від депозиту. Для рахунку в $100k це $4k, які могли б бути врятовані простим healthcheck'ом. Кожна година простою може коштувати дорого — налаштування моніторингу окупається за одну збиткову угоду, яку ви запобігли. Моніторинг uptime — не Grafana заради красивих графіків, а система, яка розбудить вас раніше, ніж ринок зробить це болючіше. Ми налаштовуємо моніторинг за 1-2 дні, і він працює роками без збоїв. На нашому рахунку понад 50 проєктів з автоматизації моніторингу — досвід, який дозволяє передбачити типові помилки.

Що потрібно моніторити

Uptime бота — це не просто «процес запущений». Процес може бути живий, але бот не торгує. Три рівні перевірок:

Process alive — процес запущений, не завис.
Application alive — бот обробляє дані та регулярно пише timestamp останньої активності. Якщо timestamp не оновлювався N хвилин — щось не так.
Trading alive — бот не просто працює, але й торгує: кількість ордерів за період, P&L, відкриті позиції відповідають стратегії.

Як налаштувати healthcheck endpoint?

Найпростіший і надійний підхід — додати HTTP endpoint прямо в бота. Використовуємо FastAPI:

from fastapi import FastAPI
import asyncio
import time

app = FastAPI()
last_heartbeat = time.time()
bot_state = {"status": "running", "last_trade": None, "open_positions": 0}

@app.get("/health")
async def health():
    age = time.time() - last_heartbeat
    if age > 60:  # не оновлювався більше хвилини
        return {"status": "stale", "heartbeat_age_seconds": age}, 503
    return {"status": "ok", **bot_state}

# В основному циклі бота
async def bot_loop():
    global last_heartbeat
    while True:
        last_heartbeat = time.time()
        await run_strategy()
        await asyncio.sleep(5)

Endpoint відповідає статусом 200 при нормі та 503 при простроченні heartbeat. Зовнішній моніторинг ловить 503 і надсилає алерт.

Порівняння інструментів зовнішнього моніторингу

Uptime Kuma розгортається в 300 разів швидше, ніж Prometheus, і потребує в 10 разів менше ресурсів сервера. Для одиночного бота це оптимальний вибір.

Інструмент	Тип моніторингу	Час розгортання	Алерти	Надійність
Uptime Kuma	Self-hosted (Docker)	5 хвилин	Telegram, Discord, email	Висока (self-hosted)
Better Uptime	SaaS	10 хвилин	Slack, PagerDuty, SMS	Висока (SLA 99.9%)
Prometheus + Grafana	Self-hosted	2-3 години	Alertmanager, Telegram	Дуже висока, але складніше

Uptime Kuma — self-hosted аналог UptimeRobot. Перевіряє HTTP endpoint кожні N секунд, надсилає сповіщення при недоступності. Розгортається за 5 хвилин на Docker:

docker run -d --restart=always -p 3001:3001 \
  -v uptime-kuma:/app/data louislam/uptime-kuma:1

Для бота: Monitor Type = HTTP, URL = http://your-bot-host:8080/health, interval = 30 seconds, expected status = 200.

Better Uptime / PagerDuty — якщо потрібні SLA-гарантії та escalation політики. Підберемо варіант під ваш бюджет.

Чому потрібен watchdog?

Якщо сам бот не може надіслати алерт (процес мертвий) — потрібен зовнішній watchdog. Найпростіший варіант на bash з кронтабом:

#!/bin/bash
# /usr/local/bin/bot-watchdog.sh
HEALTH_URL="http://localhost:8080/health"
TELEGRAM_TOKEN="..."
CHAT_ID="..."
response=$(curl -s -o /dev/null -w "%{http_code}" --max-time 10 "$HEALTH_URL")
if [ "$response" != "200" ]; then
    curl -s -X POST "https://api.telegram.org/bot${TELEGRAM_TOKEN}/sendMessage" \
      -d "chat_id=${CHAT_ID}" \
      -d "text=ALERT: Trading bot health check failed (HTTP ${response})"
fi

Як визначити оптимальний інтервал heartbeat?

Інтервал залежить від волатильності ринку та часу реакції. Для високочастотної торгівлі — 10-30 секунд, для звичайних стратегій — 30-60 секунд. Головне правило: інтервал має бути меншим, ніж час, за який пропуск угоди стане критичним. Враховуйте також затримки мережі та час обробки healthcheck.

Поширені помилки та їх рішення

Одна з частих помилок — надто важкий healthcheck endpoint, який викликає таймаути та хибні тривоги. Рішення: робити endpoint максимально легким, перевіряючи лише наявність heartbeat без глибокої логіки. Інша помилка — надто часті перевірки (кожні 5 секунд), що створюють навантаження та шум. Оптимальний інтервал — 30-60 секунд. Третя — відсутність захисту від crash loop, коли бот нескінченно перезапускається. Використовуйте StartLimitBurst=3 у systemd або Restart policies Docker. Якщо ви не хочете розбиратися з цим самостійно, замовте готове рішення — ми налаштуємо моніторинг за 1 день.

Покрокова інструкція налаштування моніторингу за 1 день

Додайте healthcheck endpoint у код бота (приклад вище).
Розгорніть Uptime Kuma на сервері (docker run).
Налаштуйте моніторинг: URL = http://your-bot:8080/health, interval = 30s.
Підключіть Telegram-алерт (BotFather + ваш chat_id).
Встановіть watchdog скрипт у cron (кожну хвилину).
Налаштуйте systemd з Restart=on-failure та StartLimitBurst=3.
Протестуйте: зупиніть бота — через 30 секунд має прийти алерт.

Автоматичний перезапуск через systemd

Якщо бот запущений як systemd service, вкажіть:

[Unit]
Description=Trading Bot
After=network.target

[Service]
ExecStart=/usr/bin/python3 /opt/bot/main.py
Restart=on-failure
RestartSec=10
StartLimitIntervalSec=60
StartLimitBurst=3

[Install]
WantedBy=multi-user.target

Restart=on-failure — автоматичний перезапуск при падінні. StartLimitBurst=3 — не більше 3 перезапусків за 60 секунд (захист від crash loop).

Що входить у налаштування?

Ми пропонуємо комплексне налаштування моніторингу за 1-2 робочі дні:

додавання healthcheck endpoint у бота (або адаптація існуючого)
деплой Uptime Kuma / налаштування зовнішнього моніторингу
налаштування Telegram-алертів
watchdog скрипт
автоматичний перезапуск через systemd/Docker
базові Prometheus метрики, якщо потрібна аналітика за торговою активністю

Якщо у вас немає часу на самостійне налаштування, зв'яжіться з нами — ми оцінимо ваш проєкт і запропонуємо рішення під ключ. Ми займаємося автоматизацією моніторингу понад 5 років — це десятки налаштованих ботів, які працюють без збоїв. Замовте надійний моніторинг сьогодні та отримайте консультацію до початку робіт.

Розгортання блокчейн-інфраструктури: як уникнути простоїв?

Subgraph впав о 3:47 ночі. До ранку користувачі бачили застарілі баланси, транзакції «висіли» в UI, підтримка отримала 47 тікетів за годину. Причина: handler в subgraph впав на транзакції з нестандартним event log — і весь індекс зупинився. Ми стикалися з такими ситуаціями десятки разів. Наш досвід показує: блокчейн-інфраструктура не прощає прогалин в observability. Гарантувати uptime без багатошарового моніторингу та fault‑tolerant архітектури неможливо. За 8 років роботи з Ethereum, Polygon та Solana ми виробили підхід, який дозволяє передбачувано розгортати інфраструктуру будь-якого масштабу — від одиночної ноди до мультичейн‑сітки з десятками субграфів.

Архітектура RPC-шару

Кожна взаємодія dApp з блокчейном йде через RPC — JSON‑RPC API, яку надає нода. Три варіанти:

Managed providers — Alchemy, QuickNode, Infura, Ankr. Мінімальні операційні витрати, SLA, вбудований моніторинг. Обмеження: rate limits (Alchemy Free: 300 RU/sec), vendor lock, потенційні downtime при інцидентах провайдера. Для більшості проектів — правильний вибір на старті.

Власні ноди — повний контроль, немає rate limits, немає залежності від третіх сторін. Вартість: архівна нода Ethereum займає 2.5–3TB SSD, потребує потужний сервер та DevOps‑підтримку. Sync з нуля на Ethereum через Geth/Nethermind — 3–7 днів. Виправдано при високому навантаженні або вимогах до latency.

Гібрид — власна нода як primary, managed provider як fallback. Стандарт для протоколів з високим TVL. Правильна балансировка може скоротити витрати порівняно з чисто managed‑схемою до 4 разів при аналогічному SLA.

Провайдер	Сильна сторона	Обмеження
Alchemy	Supernode, Enhanced APIs, webhooks	Дорогий на high-volume
QuickNode	Низька latency, multi-chain	Дорожче Alchemy на базовому плані
Infura	Історична надійність	Rate limits на безкоштовному, один великий інцидент зупинив пів DeFi
Ankr	Дешевий, 40+ чейнів	Менш стабільний

Як налаштувати RPC-шар без єдиної точки відмови?

Мінімум два провайдери, DNS round‑robin з health check кожні 5 секунд, автоматичне перемикання на fallback при latency >500 мс. На практиці це дає 99.99% доступності при будь-якому збої провайдера. Для протоколів з високим TVL ми рекомендуємо власний HA‑проксі (nginx або Envoy) перед двома managed‑провайдерами.

Чому гібридна RPC-схема вигідніша за чисто managed?

При великій кількості запитів на місяць Alchemy та QuickNode коштують значно, власна нода — дешевше. Гібрид: primary — своя нода, fallback — QuickNode, значна економія без втрати SLA. Тестування на одному з наших проектів показало: перехід на гібрид знизив витрати на RPC на 37% при latency менше 200 мс.

Клієнти нод Ethereum

Execution clients: Geth (найбільш використовуваний), Nethermind (C#, швидка sync), Besu (Java, enterprise), Erigon (найшвидший sync, архівний режим ефективний по диску — ~2TB замість 3TB).

Consensus clients (post‑Merge): Lighthouse (Rust), Prysm (Go), Teku (Java), Nimbus (Nim). Кожна нода після The Merge потребує пари execution + consensus client.

Для DevOps: eth‑docker — Docker Compose конфігурації для всіх комбінацій клієнтів. Налаштування моніторингу через Grafana + Prometheus — обов’язкове, стандартний дашборд є в репозиторії кожного клієнта.

The Graph: індексація подій

The Graph Protocol — decentralized indexing. Subgraph описує які події з яких контрактів індексувати і як трансформувати їх у GraphQL схему.

Структура subgraph:

subgraph.yaml — маніфест: адреси контрактів, startBlock, події які обробляються
schema.graphql — GraphQL схема entities
src/mapping.ts — AssemblyScript обробники подій

dataSources:
  - kind: ethereum
    name: UniswapV3Pool
    network: mainnet
    source:
      address: "0x88e6A0c2dDD26FEEb64F039a2c41296FcB3f5640"
      abi: UniswapV3Pool
      startBlock: 12370624
    mapping:
      eventHandlers:
        - event: Swap(indexed address,indexed address,int256,int256,uint160,uint128,int24)
          handler: handleSwap

AssemblyScript handlers — не TypeScript. Немає nullable types, немає closures, немає багатьох стандартних API. Помилка в handler зупиняє індексацію subgraph-а на тій транзакції. Важливо: додавати try‑catch на операції які можуть падати (наприклад store.get() для entity яка може не існувати). Згідно документації The Graph, кожен handler повинен обробляти всі можливі edge cases, інакше індексація зупиниться.

Уникнення зупинки індексації субграфа

Лог файли Graph Node моніторяться в реальному часі, при hasIndexingErrors = true спрацьовує алерт і автоматичний рестарт ноди (через systemd або Kubernetes). Типовий downtime при помилці — 150–300 секунд до відновлення. Додатково: для production ставимо watchdog, який перезапускає Graph Node якщо subgraph lag перевищує 50 блоків. Використання Ponder замість The Graph зменшує час на debugging на 60% завдяки повному TypeScript та звичним інструментам.

Вибір між Hosted Service та Decentralized Network

Graph Hosted Service (безкоштовний, централізований) deprecated на користь Subgraph Studio + Graph Network. Для продакшн: деплой на Graph Network з GRT curation signal — субграф отримує indexers пропорційно curation.

Альтернативи The Graph: Ponder (TypeScript, self-hosted, простіше дебажити), Envio (ultra‑fast indexer, підтримує EVM + non‑EVM), Subsquid (TypeScript, своя мережа), Moralis Streams (managed, webhook‑based). Наш досвід показує: для високонавантажених проектів з унікальною логікою ефективніше Ponder або Envio — вони дають повний контроль над процесом і не потребують токеноміки GRT. Ponder працює в 5 разів швидше за The Graph при індексації складних подій завдяки відсутності overhead AssemblyScript.

Webhooks та real-time нотифікації

Alchemy Webhooks та QuickNode Streams дозволяють отримувати події в реальному часі через HTTP webhook або WebSocket. Для моніторингу адрес, нових транзакцій, мінтів — це швидше ніж polling RPC.

Tenderly — платформа для моніторингу та алертів. Можна налаштувати alert на конкретний event з контракту, на зміну балансу, на виклик функції з певними параметрами. Симуляція транзакцій через Tenderly API — безцінно для debugging.

Моніторинг та observability

Мінімальний стек моніторингу для протоколу:

On‑chain: OpenZeppelin Defender Sentinel — watches contract events, викликає webhook або Autotask при спрацьовуванні умов. Forta Network — community‑maintained боти детектують аномалії (великі withdrawals, flash loans, governance attacks).

Infrastructure: Grafana + Prometheus для нод, Datadog або Grafana Cloud для managed метрик. Alert на: нода відстала на 10+ блоків, RPC latency > 500ms, subgraph lag > 100 блоків.

Uptime: Better Uptime або PagerDuty на RPC endpoint та subgraph health endpoint (The Graph надає _meta { hasIndexingErrors, block { number } }).

Обмеження моніторингу без Tenderly

Tenderly дає симуляцію транзакцій та детальні трейси — це критично для налагодження помилок у субграфах та смарт‑контрактах. Forta ж фокусується на аномаліях у мережі, а не на вашій інфраструктурі. Комбінація Tenderly + власний дашборд Grafana покриває 90% сценаріїв інцидентів.

Мультичейн інфраструктура

Протокол на 5 чейнах = 5 окремих RPC endpoints, 5 subgraphs, 5 моніторинг‑конфігів. Це керовано, але потрібна автоматизація деплою.

Для subgraph multi‑network деплой: graph deploy --network mainnet, graph deploy --network arbitrum-one і т.д. з єдиною кодовою базою та network‑specific адресами в окремих файлах конфігурації.

Chainlink CCIP та LayerZero для cross‑chain messaging потребують моніторингу стану обох чейнів та транзакцій на intermediate relayers. Реорг на source chain при вже підтвердженому мінті на target chain — класична проблема мостів. Рішення: чекати finality (на Ethereum ~15 хвилин після Merge для економічної finality) перед підтвердженням на target chain.

Деталі автоматизації для 5+ чейнів

Для зменшення операційного навантаження використовуємо Terraform для розгортання інфраструктури, Ansible для налаштування нод та Kubernetes для оркестрації subgraph. Кожен чейн отримує окремий namespace з однаковими шаблонами моніторингу. Це дозволяє розгорнути новий чейн за 2 дні замість 2 тижнів.

Процес налаштування інфраструктури

Аудит поточного стеку — визначаємо чейни, обсяг запитів, вимоги до latency та доступності.
Проектування архітектури — вибір провайдерів, балансировка, redundancy.
Розробка subgraph — маніфест → схема → handlers → тестування на локальній Graph Node → деплой на testnet → mainnet.
Конфігурація моніторингу — Tenderly alerts, Grafana дашборд, PagerDuty інтеграція.
Документація та runbook — що робити при: subgraph fell behind, RPC downtime, нода desync.
Передача в експлуатацію — навчання команди, передача доступів, підтримка перший місяць.

Що входить у роботу?

Розгортання managed або self‑hosted нод Ethereum, Polygon, BNB Chain
Налаштування RPC‑шару з primary/fallback та load balancing
Розробка та деплой subgraph під ваш протокол
Підключення моніторингу (Tenderly, Grafana, алерти)
Створення runbook та документації з експлуатації
Навчання команди (до 4 годин онлайн)
Підтримка протягом 30 днів після здачі

Які терміни виконання?

Робота	Термін
Налаштування RPC та базового моніторингу	1–2 тижні
Subgraph для одного протоколу	2–4 тижні
Self-hosted нода з моніторингом	2–3 тижні
Повна інфраструктура (multi-chain, моніторинг, runbooks)	6–10 тижнів

Всі проекти ведуться в репозиторії на GitHub/GitLab з CI/CD, код конфігурацій залишається у вас. Замовте розгортання інфраструктури — розкажемо, як скоротити витрати без втрати надійності. Отримайте консультацію — покажемо, як ми розгортали інфраструктуру для протоколу з високим TVL на Ethereum та Arbitrum. Зв'яжіться з нами.