Как часто нужно проверять heartbeat бота?

Оптимальный интервал 30-60 секунд. Если бот не обновлял heartbeat дольше 2 минут — это уже аварийная ситуация. Для алертов используйте время отклика, которое вы готовы терпеть с учётом рыночного риска.

Что делать, если бот не отвечает на healthcheck?

Первым делом — автоматический перезапуск через systemd (Restart=on-failure) или Docker (--restart). Если перезапуск не помог — алерт должен быть отправлен в Telegram/PagerDuty. Дальше — свяжитесь с техподдержкой сервера.

Как настроить алерты в Telegram?

Создайте бота в BotFather, получите токен и chat_id. Вставьте вызов API в месте, где ловите исключения. Для 100% доставки используйте watchdog на уровне ОС — отдельный bash-скрипт через cron.

Нужен ли мне полноценный Prometheus + Grafana?

Для одного бота достаточно Uptime Kuma и Telegram-алертов. Prometheus оправдан, когда у вас несколько ботов, нужна аналитика по сделкам, P&L и открытым позициям в виде графиков.

Как защититься от crash loop (бесконечный перезапуск)?

Используйте StartLimitBurst=3 в systemd или restart policies Docker c on-failure:3. Так бот не будет бесконечно падать и рестартовать, если ошибка воспроизводится. После превышения лимита сервис остановится до ручного вмешательства.

Как часто нужно проверять heartbeat бота?

Оптимальный интервал 30-60 секунд. Если бот не обновлял heartbeat дольше 2 минут — это уже аварийная ситуация. Для алертов используйте время отклика, которое вы готовы терпеть с учётом рыночного риска.

Что делать, если бот не отвечает на healthcheck?

Первым делом — автоматический перезапуск через systemd (Restart=on-failure) или Docker (--restart). Если перезапуск не помог — алерт должен быть отправлен в Telegram/PagerDuty. Дальше — свяжитесь с техподдержкой сервера.

Как настроить алерты в Telegram?

Создайте бота в BotFather, получите токен и chat_id. Вставьте вызов API в месте, где ловите исключения. Для 100% доставки используйте watchdog на уровне ОС — отдельный bash-скрипт через cron.

Нужен ли мне полноценный Prometheus + Grafana?

Для одного бота достаточно Uptime Kuma и Telegram-алертов. Prometheus оправдан, когда у вас несколько ботов, нужна аналитика по сделкам, P&L и открытым позициям в виде графиков.

Как защититься от crash loop (бесконечный перезапуск)?

Используйте StartLimitBurst=3 в systemd или restart policies Docker c on-failure:3. Так бот не будет бесконечно падать и рестартовать, если ошибка воспроизводится. После превышения лимита сервис остановится до ручного вмешательства.

Мониторинг торгового бота: healthcheck, алерты, watchdog на продакшене

Проектируем и разрабатываем блокчейн-решения полного цикла: от архитектуры смарт-контрактов до запуска DeFi-протоколов, NFT-маркетплейсов и криптобирж. Аудит безопасности, токеномика, интеграция с существующей инфраструктурой.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1305 услуг

Мониторинг торгового бота: healthcheck, алерты, watchdog на продакшене

Простой

~1 день

Часто задаваемые вопросы

Направления блокчейн-разработки

Обсудить блокчейн-проект

Бесплатная консультация — расскажем, как блокчейн решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего блокчейн-проекта

Этапы блокчейн-разработки

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Торговый бот, который упал в 3 ночи — это не просто пропущенные сделки. Это открытые позиции без управления, пропущенные стоп-лоссы и убытки в десятки процентов капитала. Представьте: ваш бот зарабатывает 2% в день, и вдруг сервер выключается на 2 часа. Потеря — 4% от депозита. Для счета в $100k это $4k, которые могли бы быть спасены простым healthcheck'ом. Каждый час простоя может стоить дорого — настройка мониторинга окупается за одну убыточную сделку, которую вы предотвратили. Мониторинг uptime — не Grafana ради красивых графиков, а система, которая разбудит вас раньше, чем рынок сделает это болезненнее. Мы настраиваем мониторинг за 1-2 дня, и он работает годами без сбоев. На нашем счету более 50 проектов по автоматизации мониторинга — опыт, который позволяет предвидеть типичные ошибки.

Что нужно мониторить

Uptime бота — это не просто «процесс запущен». Процесс может быть жив, но бот не торгует. Три уровня проверок:

Process alive — процесс запущен, не завис.
Application alive — бот обрабатывает данные и регулярно пишет timestamp последней активности. Если timestamp не обновлялся N минут — что-то не так.
Trading alive — бот не просто работает, но и торгует: количество ордеров за период, P&L, открытые позиции соответствуют стратегии.

Как настроить healthcheck endpoint?

Самый простой и надёжный подход — добавить HTTP endpoint прямо в бота. Используем FastAPI:

from fastapi import FastAPI
import asyncio
import time

app = FastAPI()
last_heartbeat = time.time()
bot_state = {"status": "running", "last_trade": None, "open_positions": 0}

@app.get("/health")
async def health():
    age = time.time() - last_heartbeat
    if age > 60:  # не обновлялся больше минуты
        return {"status": "stale", "heartbeat_age_seconds": age}, 503
    return {"status": "ok", **bot_state}

# В основном цикле бота
async def bot_loop():
    global last_heartbeat
    while True:
        last_heartbeat = time.time()
        await run_strategy()
        await asyncio.sleep(5)

Endpoint отвечает статус 200 при норме и 503 при просрочке heartbeat. Внешний мониторинг ловит 503 и шлёт алерт.

Сравнение инструментов внешнего мониторинга

Uptime Kuma разворачивается в 300 раз быстрее, чем Prometheus, и требует в 10 раз меньше ресурсов сервера. Для одиночного бота это оптимальный выбор.

Инструмент	Тип мониторинга	Время развёртывания	Алерты	Надёжность
Uptime Kuma	Self-hosted (Docker)	5 минут	Telegram, Discord, email	Высокая (self-hosted)
Better Uptime	SaaS	10 минут	Slack, PagerDuty, SMS	Высокая (SLA 99.9%)
Prometheus + Grafana	Self-hosted	2-3 часа	Alertmanager, Telegram	Очень высокая, но сложнее

Uptime Kuma — self-hosted аналог UptimeRobot. Проверяет HTTP endpoint каждые N секунд, отправляет уведомления при недоступности. Деплоится за 5 минут на Docker:

docker run -d --restart=always -p 3001:3001 \
  -v uptime-kuma:/app/data louislam/uptime-kuma:1

Для бота: Monitor Type = HTTP, URL = http://your-bot-host:8080/health, interval = 30 seconds, expected status = 200.

Better Uptime / PagerDuty — если нужны SLA-гарантии и escalation политики. Подберём вариант под ваш бюджет.

Почему нужен watchdog?

Если сам бот не может отправить алерт (процесс мёртв) — нужен внешний watchdog. Простейший вариант на bash с кронтабом:

#!/bin/bash
# /usr/local/bin/bot-watchdog.sh
HEALTH_URL="http://localhost:8080/health"
TELEGRAM_TOKEN="..."
CHAT_ID="..."
response=$(curl -s -o /dev/null -w "%{http_code}" --max-time 10 "$HEALTH_URL")
if [ "$response" != "200" ]; then
    curl -s -X POST "https://api.telegram.org/bot${TELEGRAM_TOKEN}/sendMessage" \
      -d "chat_id=${CHAT_ID}" \
      -d "text=ALERT: Trading bot health check failed (HTTP ${response})"
fi

Как определить оптимальный интервал heartbeat?

Интервал зависит от волатильности рынка и времени реакции. Для высокочастотной торговли — 10-30 секунд, для обычных стратегий — 30-60 секунд. Главное правило: интервал должен быть меньше, чем время, за которое пропуск сделки станет критическим. Учитывайте также задержки сети и время обработки healthcheck.

Распространённые ошибки и их решения

Одна из частых ошибок — слишком тяжёлый healthcheck endpoint, который вызывает таймауты и ложные тревоги. Решение: делать endpoint максимально лёгким, проверяя только наличие heartbeat без глубокой логики. Другая ошибка — слишком частые проверки (каждые 5 секунд), создающие нагрузку и шум. Оптимальный интервал — 30-60 секунд. Третья — отсутствие защиты от crash loop, когда бот бесконечно перезапускается. Используйте StartLimitBurst=3 в systemd или Restart policies Docker. Если вы не хотите разбираться с этим сами, закажите готовое решение — мы настроим мониторинг за 1 день.

Пошаговая инструкция настройки мониторинга за 1 день

Добавьте healthcheck endpoint в код бота (пример выше).
Разверните Uptime Kuma на сервере (docker run).
Настройте мониторинг: URL = http://your-bot:8080/health, interval = 30s.
Подключите Telegram-алерт (BotFather + ваш chat_id).
Установите watchdog скрипт в cron (каждую минуту).
Настройте systemd с Restart=on-failure и StartLimitBurst=3.
Протестируйте: остановите бота — через 30 секунд должен прийти алерт.

Автоматический перезапуск через systemd

Если бот запущен как systemd service, укажите:

[Unit]
Description=Trading Bot
After=network.target

[Service]
ExecStart=/usr/bin/python3 /opt/bot/main.py
Restart=on-failure
RestartSec=10
StartLimitIntervalSec=60
StartLimitBurst=3

[Install]
WantedBy=multi-user.target

Restart=on-failure — автоматический перезапуск при падении. StartLimitBurst=3 — не более 3 перезапусков за 60 секунд (защита от crash loop).

Что входит в настройку?

Мы предлагаем комплексную настройку мониторинга за 1-2 рабочих дня:

добавление healthcheck endpoint в бота (или адаптация существующего)
деплой Uptime Kuma / настройка внешнего мониторинга
настройка Telegram-алертов
watchdog скрипт
автоматический перезапуск через systemd/Docker
базовые Prometheus метрики, если нужна аналитика по торговой активности

Если у вас нет времени на самостоятельную настройку, свяжитесь с нами — мы оценим ваш проект и предложим решение под ключ. Мы занимаемся автоматизацией мониторинга более 5 лет — это десятки настроенных ботов, которые работают без сбоев. Закажите надёжный мониторинг сегодня и получите консультацию до начала работ.

Развертывание блокчейн-инфраструктуры: ноды, RPC, индексация

Subgraph упал в 3:47 ночи. К утру пользователи видели устаревшие балансы, транзакции «висели» в UI, поддержка получила 47 тикетов за час. Причина: handler в subgraph упал на транзакции с нестандартным event log — и весь индекс встал. Мы сталкивались с такими ситуациями десятки раз. Наш опыт показывает: блокчейн-инфраструктура не прощает gaps в observability. Гарантировать uptime без многослойного мониторинга и fault‑tolerant архитектуры невозможно. За 8 лет работы с Ethereum, Polygon и Solana мы выработали подход, который позволяет предсказуемо развёртывать инфраструктуру любого масштаба — от одиночной ноды до мультичейн‑сетки с десятками субграфов.

Архитектура RPC-слоя

Каждое взаимодействие dApp с блокчейном идёт через RPC — JSON‑RPC API, которую предоставляет нода. Три варианта:

Managed providers — Alchemy, QuickNode, Infura, Ankr. Минимальные операционные расходы, SLA, встроенный мониторинг. Ограничения: rate limits (Alchemy Free: 300 RU/sec), vendor lock, потенциальные downtime при инцидентах провайдера. Для большинства проектов — правильный выбор на старте.

Собственные ноды — полный контроль, нет rate limits, нет зависимости от третьих сторон. Стоимость: архивная нода Ethereum занимает 2.5–3TB SSD, требует мощный сервер и DevOps‑поддержку. Sync с нуля на Ethereum через Geth/Nethermind — 3–7 дней. Оправдано при высокой нагрузке или требованиях к latency.

Гибрид — собственная нода как primary, managed provider как fallback. Стандарт для протоколов с TVL от $10M. Правильная балансировка может сократить расходы на 20–30% по сравнению с чисто managed‑схемой. При нагрузке 10 млн запросов в месяц гибрид экономит от $1500 до $3000.

Провайдер	Сильная сторона	Ограничение
Alchemy	Supernode, Enhanced APIs, webhooks	Дорогой на high-volume
QuickNode	Низкая latency, multi-chain	Дороже Alchemy на базовом плане
Infura	Историческая надёжность	Rate limits на бесплатном, один крупный инцидент остановил пол‑DeFi
Ankr	Дешёвый, 40+ чейнов	Менее стабильный

Как настроить RPC-слой без единой точки отказа?

Минимум два провайдера, DNS round‑robin с health check каждые 5 секунд, автоматическое переключение на fallback при latency >500 мс. На практике это даёт 99.99% доступности при любом сбое провайдера. Для протоколов с TVL от $10M мы рекомендуем собственный HA‑прокси (nginx или Envoy) перед двумя managed‑провайдерами.

Почему гибридная RPC-схема выгоднее чисто managed?

При 50 млн запросов в месяц Alchemy стоит $2000+, QuickNode — $2500+, собственная нода — $400–600 за хостинг + DevOps. Гибрид: primary — своя нода ($500), fallback — QuickNode ($500), итого ~$1000. Экономия 50–60% без потери SLA.

Клиенты нод Ethereum

Execution clients: Geth (наиболее используемый), Nethermind (C#, быстрая sync), Besu (Java, enterprise), Erigon (самый быстрый sync, архивный режим эффективен по диску — ~2TB вместо 3TB).

Consensus clients (post‑Merge): Lighthouse (Rust), Prysm (Go), Teku (Java), Nimbus (Nim). Каждая нода после The Merge требует пары execution + consensus client.

Для DevOps: eth‑docker — Docker Compose конфигурации для всех комбинаций клиентов. Настройка мониторинга через Grafana + Prometheus — обязательна, стандартный дашборд есть в репозитории каждого клиента.

The Graph: индексация событий

The Graph Protocol — decentralized indexing. Subgraph описывает какие события с каких контрактов индексировать и как трансформировать их в GraphQL схему.

Структура subgraph:

subgraph.yaml — манифест: адреса контрактов, startBlock, события которые обрабатываются
schema.graphql — GraphQL схема entities
src/mapping.ts — AssemblyScript обработчики событий

dataSources:
  - kind: ethereum
    name: UniswapV3Pool
    network: mainnet
    source:
      address: "0x88e6A0c2dDD26FEEb64F039a2c41296FcB3f5640"
      abi: UniswapV3Pool
      startBlock: 12370624
    mapping:
      eventHandlers:
        - event: Swap(indexed address,indexed address,int256,int256,uint160,uint128,int24)
          handler: handleSwap

AssemblyScript handlers — не TypeScript. Нет nullable types, нет closures, нет многих стандартных API. Ошибка в handler останавливает индексацию subgraph-а на той транзакции. Важно: добавлять try‑catch на операции которые могут падать (например store.get() для entity которая может не существовать).

Как избежать остановки индексации субграфа?

Лог файлы Graph Node мониторятся в реальном времени, при hasIndexingErrors = true срабатывает алерт и автоматический рестарт ноды (через systemd или Kubernetes). Типичный downtime при ошибке — 150–300 секунд до восстановления. Дополнительно: для production ставим watchdog, который перезапускает Graph Node если subgraph lag превышает 50 блоков.

Выбор между Hosted Service и Decentralized Network

Graph Hosted Service (бесплатный, централизованный) deprecated в пользу Subgraph Studio + Graph Network. Для продакшн: деплой на Graph Network с GRT curation signal — субграф получает indexers пропорционально curation.

Альтернативы The Graph: Ponder (TypeScript, self-hosted, проще дебагать), Envio (ultra‑fast indexer, поддерживает EVM + non‑EVM), Subsquid (TypeScript, своя сеть), Moralis Streams (managed, webhook‑based). Наш опыт показывает: для высоконагруженных проектов с уникальной логикой эффективнее Ponder или Envio — они дают полный контроль над процессом и не требуют токеномики GRT.

Webhooks и real-time нотификации

Alchemy Webhooks и QuickNode Streams позволяют получать события в реальном времени через HTTP webhook или WebSocket. Для мониторинга адресов, новых транзакций, минтов — это быстрее чем polling RPC.

Tenderly — платформа для мониторинга и алертов. Можно настроить alert на конкретный event из контракта, на изменение баланса, на вызов функции с определёнными параметрами. Симуляция транзакций через Tenderly API — бесценно для debugging.

Мониторинг и observability

Минимальный стек мониторинга для протокола:

On‑chain: OpenZeppelin Defender Sentinel — watches contract events, вызывает webhook или Autotask при срабатывании условий. Forta Network — community‑maintained боты детектируют аномалии (большие withdrawals, flash loans, governance attacks).

Infrastructure: Grafana + Prometheus для нод, Datadog или Grafana Cloud для managed метрик. Alert на: нода отстала на 10+ блоков, RPC latency > 500ms, subgraph lag > 100 блоков.

Uptime: Better Uptime или PagerDuty на RPC endpoint и subgraph health endpoint (The Graph предоставляет _meta { hasIndexingErrors, block { number } }).

Почему мониторинг без Tenderly недостаточен?

Tenderly даёт симуляцию транзакций и детальные трейсы — это критично для отладки ошибок в субграфах и смарт‑контрактах. Forta же фокусируется на аномалиях в сети, а не на вашей инфраструктуре. Комбинация Tenderly + собственный дашборд Grafana покрывает 90% сценариев инцидентов.

Мультичейн инфраструктура

Протокол на 5 чейнах = 5 отдельных RPC endpoints, 5 subgraphs, 5 мониторинг‑конфигов. Это управляемо, но нужна автоматизация деплоя.

Для subgraph multi‑network деплой: graph deploy --network mainnet, graph deploy --network arbitrum-one и т.д. с единой кодовой базой и network‑specific адресами в отдельных файлах конфигурации.

Chainlink CCIP и LayerZero для cross‑chain messaging требуют мониторинга состояния обоих чейнов и транзакций на intermediate relayers. Реорг на source chain при уже подтверждённом минте на target chain — классическая проблема мостов. Решение: ждать finality (на Ethereum ~15 минут после Merge для экономической finality) перед подтверждением на target chain.

Процесс настройки инфраструктуры

Аудит текущего стека — определяем чейны, объём запросов, требования к latency и доступности.
Проектирование архитектуры — выбор провайдеров, балансировка, redundancy.
Разработка subgraph — манифест → схема → handlers → тестирование на локальной Graph Node → деплой на testnet → mainnet.
Конфигурация мониторинга — Tenderly alerts, Grafana дашборд, PagerDuty интеграция.
Документация и runbook — что делать при: subgraph fell behind, RPC downtime, нода desync.
Передача в эксплуатацию — обучение команды, передача доступов, поддержка первый месяц.

Что входит в работу

Развёртывание managed или self‑hosted нод Ethereum, Polygon, BNB Chain
Настройка RPC‑слоя с primary/fallback и load balancing
Разработка и деплой subgraph под ваш протокол
Подключение мониторинга (Tenderly, Grafana, алерты)
Создание runbook и документации по эксплуатации
Обучение команды (до 4 часов онлайн)
Поддержка в течение 30 дней после сдачи

Сроки

Работа	Срок
Настройка RPC и базового мониторинга	1–2 недели
Subgraph для одного протокола	2–4 недели
Self-hosted нода с мониторингом	2–3 недели
Полная инфраструктура (multi-chain, мониторинг, runbooks)	6–10 недель

Все проекты ведутся в репозитории на GitHub/GitLab с CI/CD, код конфигураций остаётся у вас. Закажите развертывание инфраструктуры — расскажем, как сократить расходы на 20–30% без потери надёжности. JSON‑RPC спецификация, документация The Graph. Получите консультацию — покажем, как мы развёртывали инфраструктуру для протокола с TVL $50M+ на Ethereum и Arbitrum.

Свяжитесь с нами.