Какие форматы данных поддерживает ваша система?

Система обрабатывает данные от любых CEX (Binance, OKX, Bybit, Coinbase), DEX (Uniswap, Sushi) и on-chain источников (Ethereum, Solana, BNB Chain). Встроена поддержка временных меток в ms, s, ISO 8601, Unix timestamp; сумм в wei, lamports, string с плавающей точкой.

Как вы обрабатываете разные тикеры на разных биржах?

Мы используем ccxt-совместимый формат BASE/QUOTE с кастомными маппингами для каждой биржи. При отсутствии точного совпадения применяем эвристику: определяем квоту по окончанию (USDT, USDC, BTC) и строим символ. Все маппинги настраиваются под конкретный проект.

Что происходит при ошибке валидации записи?

Невалидные записи не блокируют pipeline — они логируются в отдельную таблицу с полным raw-контекстом и причиной ошибки. Мы анализируем ошибки раз в день и обновляем схемы, если источник изменил формат.

Как гарантируется точность числовых значений?

Все суммы хранятся в виде Decimal (Python) или numeric (PostgreSQL). Float исключены на всех этапах. При конвертации on-chain токенов используется кэш decimals токена, деление через Decimal. Cross-source consistency проверка сверяет цены одного актива на разных биржах — расхождение более 0.5% вызывает алерт.

Как вы версионируете схемы источников?

Мы внедряем schema registry: каждая запись содержит версию схемы источника. При обновлении API создаётся новая версия схемы, старые данные не ломаются. Это позволяет перепрогонять нормализацию при исправлении логики без повторного сбора.

Какие форматы данных поддерживает ваша система?

Система обрабатывает данные от любых CEX (Binance, OKX, Bybit, Coinbase), DEX (Uniswap, Sushi) и on-chain источников (Ethereum, Solana, BNB Chain). Встроена поддержка временных меток в ms, s, ISO 8601, Unix timestamp; сумм в wei, lamports, string с плавающей точкой.

Как вы обрабатываете разные тикеры на разных биржах?

Мы используем ccxt-совместимый формат BASE/QUOTE с кастомными маппингами для каждой биржи. При отсутствии точного совпадения применяем эвристику: определяем квоту по окончанию (USDT, USDC, BTC) и строим символ. Все маппинги настраиваются под конкретный проект.

Что происходит при ошибке валидации записи?

Невалидные записи не блокируют pipeline — они логируются в отдельную таблицу с полным raw-контекстом и причиной ошибки. Мы анализируем ошибки раз в день и обновляем схемы, если источник изменил формат.

Как гарантируется точность числовых значений?

Все суммы хранятся в виде Decimal (Python) или numeric (PostgreSQL). Float исключены на всех этапах. При конвертации on-chain токенов используется кэш decimals токена, деление через Decimal. Cross-source consistency проверка сверяет цены одного актива на разных биржах — расхождение более 0.5% вызывает алерт.

Как вы версионируете схемы источников?

Мы внедряем schema registry: каждая запись содержит версию схемы источника. При обновлении API создаётся новая версия схемы, старые данные не ломаются. Это позволяет перепрогонять нормализацию при исправлении логики без повторного сбора.

Разработка системы нормализации данных из крипто-источников

Проектируем и разрабатываем блокчейн-решения полного цикла: от архитектуры смарт-контрактов до запуска DeFi-протоколов, NFT-маркетплейсов и криптобирж. Аудит безопасности, токеномика, интеграция с существующей инфраструктурой.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1305 услуг

Разработка системы нормализации данных из крипто-источников

Средний

~3-5 дней

Часто задаваемые вопросы

Направления блокчейн-разработки

Обсудить блокчейн-проект

Бесплатная консультация — расскажем, как блокчейн решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего блокчейн-проекта

Этапы блокчейн-разработки

Последние работы

Разработка сайта компании B2B ADVANCE
1360
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Парсинг крипто-данных — только первый шаг. Когда данные приходят из пяти бирж, трёх блокчейн-сетей и двух социальных платформ — каждый источник присылает их в своём формате. Binance возвращает timestamps в миллисекундах, OKX — в секундах, Telegram — в UTC datetime, on-chain данные — в Unix секундах из блока. Суммы везде разные: где-то wei, где-то Gwei, где-то string с плавающей точкой. Мы строим нормализационный слой, который превращает этот хаос в единый, предсказуемый формат. Оценим ваш проект за 1 день — просто свяжитесь с нами.

Как нормализация данных влияет на надёжность DeFi-систем

Ошибка в одном тикере или потеря точности на шестом знаке может привести к потере средств или неверным метрикам. Наш опыт — 10+ лет в блокчейн-разработке — показывает, что 80% инцидентов с данными связаны именно с неправильной нормализацией. Без неё никакой скользящий хедж или арбитраж не работает. Сравним: нормализованный pipeline обрабатывает данные в 3 раза быстрее ad-hoc скриптов, а вероятность ошибки снижается на порядок.

Проблемы гетерогенных данных

Перечислим конкретные расхождения, которые встречаются в реальных проектах:

Временные метки: Unix milliseconds (Binance, most CEX), Unix seconds (Ethereum blocks, Chainlink), ISO 8601 strings (некоторые REST API), Relative ("2 hours ago") — в social data scraping, Timezone-aware vs naive datetimes.
Суммы и цены: Wei (10^-18 ETH) — on-chain Ethereum, Lamports (10^-9 SOL) — on-chain Solana, String с decimals ("1234.567890") — Binance REST, Integer с fixed decimals (100000000 = 1 BTC у некоторых бирж), Float64 — потеря точности на больших числах.
Идентификаторы активов: BTCUSDT (Binance), BTC-USDT (OKX), BTC/USDT (ccxt standard), tBTCUST (Bitfinex), ERC-20 address (0x2260fac...) vs ticker (WBTC), CoinGecko ID ("bitcoin") vs CMC ID (1).
Числовые форматы: null vs "0" vs 0 vs отсутствие поля — для нулевых объёмов; -0.0 — валидное значение в Python/JS float, неочевидное поведение при сравнении; NaN — иногда встречается в JSON от сторонних API.

Как построить нормализационный слой?

Система состоит из трёх слоёв:

Raw Data (from scrapers)
        ↓
[Validation Layer]   — отбрасываем невалидные записи, логируем ошибки
        ↓
[Transformation Layer] — приводим к единому формату
        ↓
[Enrichment Layer]   — добавляем derived поля (USD-стоимость, нормализованный тикер)
        ↓
Normalized Storage

Validation Layer

Перед трансформацией — явная валидация входных данных. Используем Pydantic v2 для Python:

from pydantic import BaseModel, field_validator, model_validator
from decimal import Decimal
from datetime import datetime
from typing import Optional

class RawTradeEvent(BaseModel):
    """Схема для сырых trade событий от любой биржи"""
    exchange: str
    raw_symbol: str
    raw_price: str | float | int
    raw_quantity: str | float | int
    raw_timestamp: int | str | float
    side: str  # 'buy'/'sell' или 'BUY'/'SELL' или 1/2
    raw_trade_id: str | int

    @field_validator('raw_price', 'raw_quantity', mode='before')
    @classmethod
    def coerce_to_string(cls, v):
        if isinstance(v, float):
            return f"{v:.10f}"
        return str(v)

    @field_validator('side', mode='before')
    @classmethod
    def normalize_side(cls, v):
        s = str(v).lower()
        if s in ('buy', 'b', '1', 'true'):
            return 'buy'
        if s in ('sell', 's', '2', 'false'):
            return 'sell'
        raise ValueError(f"Unknown side value: {v}")

Невалидные записи не обрушивают весь pipeline — они логируются в отдельную таблицу validation_errors с raw-контекстом и причиной ошибки.

Transformation Layer

Приведение к каноническому формату:

from dataclasses import dataclass
from decimal import Decimal, ROUND_DOWN
from datetime import datetime, timezone

@dataclass
class NormalizedTrade:
    exchange: str
    symbol: str           # canonical: "BTC/USDT"
    price: Decimal        # всегда Decimal, никаких float
    quantity: Decimal
    quote_quantity: Decimal  # price * quantity
    side: str             # 'buy' или 'sell'
    timestamp: datetime   # UTC timezone-aware
    trade_id: str         # строка, уникальна в рамках биржи

def normalize_trade(raw: RawTradeEvent) -> NormalizedTrade:
    return NormalizedTrade(
        exchange=raw.exchange,
        symbol=normalize_symbol(raw.raw_symbol, raw.exchange),
        price=parse_decimal(raw.raw_price),
        quantity=parse_decimal(raw.raw_quantity),
        quote_quantity=parse_decimal(raw.raw_price) * parse_decimal(raw.raw_quantity),
        side=raw.side,
        timestamp=normalize_timestamp(raw.raw_timestamp),
        trade_id=str(raw.raw_trade_id),
    )

def normalize_timestamp(raw: int | str | float) -> datetime:
    """Приводит любой timestamp к UTC datetime"""
    if isinstance(raw, str):
        dt = datetime.fromisoformat(raw.replace('Z', '+00:00'))
        return dt.astimezone(timezone.utc)
    ts = float(raw)
    if ts > 1e12:
        ts = ts / 1000
    return datetime.fromtimestamp(ts, tz=timezone.utc)

def parse_decimal(value: str) -> Decimal:
    """Безопасная конвертация в Decimal"""
    try:
        d = Decimal(str(value))
        if d.is_nan() or d.is_infinite():
            raise ValueError(f"Non-finite decimal: {value}")
        return d
    except Exception as e:
        raise ValueError(f"Cannot parse decimal from '{value}': {e}")

В Python Decimal обеспечивает точное хранение чисел с плавающей точкой.

Symbol normalization

Маппинг тикеров между биржами — отдельная задача. Используем ccxt-совместимый формат BASE/QUOTE:

SYMBOL_MAPPINGS = {
    "binance": {
        "BTCUSDT": "BTC/USDT",
        "ETHUSDT": "ETH/USDT",
    },
    "okx": {
        "BTC-USDT": "BTC/USDT",
        "BTC-USDT-SWAP": "BTC/USDT:USDT",  # perpetual
    },
    "bybit": {
        "BTCUSDT": "BTC/USDT",
        "BTCPERP": "BTC/USDT:USDT",
    },
}

def normalize_symbol(raw_symbol: str, exchange: str) -> str:
    exchange_map = SYMBOL_MAPPINGS.get(exchange, {})
    if raw_symbol in exchange_map:
        return exchange_map[raw_symbol]
    for sep in ['-', '_', '']:
        if sep in raw_symbol or sep == '':
            for quote in ['USDT', 'USDC', 'BTC', 'ETH', 'BNB']:
                if raw_symbol.endswith(quote):
                    base = raw_symbol[:-len(quote)]
                    return f"{base}/{quote}"
    raise ValueError(f"Cannot normalize symbol '{raw_symbol}' for exchange '{exchange}'")

Почему важен schema registry?

Источники данных меняются. Binance обновил API — добавилось поле, изменился формат timestamp. Без версионирования схем сломается вся нормализация. Schema registry (аналог Confluent Schema Registry для Kafka) решает это: каждая запись содержит версию схемы источника, старые данные не ломаются, а нормализацию можно перепрогнать при исправлении логики без повторного сбора.

SCHEMA_VERSIONS = {
    "binance_trade": {
        "v1": BinanceTradeV1Schema,   # предыдущая версия API
        "v2": BinanceTradeV2Schema,   # после обновления: добавлен quoteQty
    }
}

def get_schema(source: str, version: str):
    return SCHEMA_VERSIONS[source][version]

Мониторинг качества данных

Нормализация без мониторинга — это иллюзия качества. Ключевые метрики:

SELECT
    source,
    COUNT(*) FILTER (WHERE status = 'error') AS errors,
    COUNT(*) AS total,
    ROUND(100.0 * COUNT(*) FILTER (WHERE status = 'error') / COUNT(*), 2) AS error_rate_pct
FROM normalization_log
WHERE created_at > NOW() - INTERVAL '1 hour'
GROUP BY source
ORDER BY error_rate_pct DESC;

Алерт при error_rate > 5% для любого источника — значит изменился формат данных и нужно обновить схему. Cross-source consistency check: одна и та же цена BTC в одно время не должна расходиться между биржами более чем на 0.5%.

Метрики качества нормализации:

Метрика	Описание	Порог алерта
Error rate	Доля невалидных записей	>5%
Cross-source diff	Расхождение цены BTC между биржами	>0.5%
Latency	Задержка от scrap до нормализации	>10 сек

Технологический стек

Компонент	Выбор
Валидация схем	Pydantic v2 (Python) или Zod (TypeScript)
Обработка числовых значений	Python `decimal.Decimal`, PostgreSQL `numeric`
Очередь	Redis Streams или Kafka
Хранение	PostgreSQL (normalized) + raw backup в S3
Schema registry	Custom или Confluent Schema Registry
Мониторинг качества	dbt tests + Prometheus метрики

Сырые данные всегда сохраняем в S3 до нормализации. Если обнаружена ошибка в логике нормализации — можно перепрогнать по исходным данным без повторного сбора.

Как внедрить нормализационный слой: пошаговый процесс

Анализ источников: определяем все источники данных (биржи, блокчейны, API), собираем образцы форматов.
Проектирование схем: создаём Pydantic/Zod схемы для каждого источника с версионированием.
Разработка трансформаций: пишем функции нормализации для каждого поля (timestamp, суммы, символы).
Тестирование и мониторинг: прогоняем на исторических данных, настраиваем алерты.

Что входит в работу

При заказе под ключ вы получаете:

Готовый нормализационный слой для ваших источников (до 7 в базовом варианте)
Документацию схем и API
Доступ к репозиторию с кодом и тестами
Обучение команды работе с системой
Поддержку в течение 1 месяца после запуска

Закажите разработку нормализационного слоя. Свяжитесь с нами, чтобы обсудить ваш проект. Мы гарантируем прозрачный процесс и индивидуальный подход.

Развертывание блокчейн-инфраструктуры: ноды, RPC, индексация

Subgraph упал в 3:47 ночи. К утру пользователи видели устаревшие балансы, транзакции «висели» в UI, поддержка получила 47 тикетов за час. Причина: handler в subgraph упал на транзакции с нестандартным event log — и весь индекс встал. Мы сталкивались с такими ситуациями десятки раз. Наш опыт показывает: блокчейн-инфраструктура не прощает gaps в observability. Гарантировать uptime без многослойного мониторинга и fault‑tolerant архитектуры невозможно. За 8 лет работы с Ethereum, Polygon и Solana мы выработали подход, который позволяет предсказуемо развёртывать инфраструктуру любого масштаба — от одиночной ноды до мультичейн‑сетки с десятками субграфов.

Архитектура RPC-слоя

Каждое взаимодействие dApp с блокчейном идёт через RPC — JSON‑RPC API, которую предоставляет нода. Три варианта:

Managed providers — Alchemy, QuickNode, Infura, Ankr. Минимальные операционные расходы, SLA, встроенный мониторинг. Ограничения: rate limits (Alchemy Free: 300 RU/sec), vendor lock, потенциальные downtime при инцидентах провайдера. Для большинства проектов — правильный выбор на старте.

Собственные ноды — полный контроль, нет rate limits, нет зависимости от третьих сторон. Стоимость: архивная нода Ethereum занимает 2.5–3TB SSD, требует мощный сервер и DevOps‑поддержку. Sync с нуля на Ethereum через Geth/Nethermind — 3–7 дней. Оправдано при высокой нагрузке или требованиях к latency.

Гибрид — собственная нода как primary, managed provider как fallback. Стандарт для протоколов с TVL от $10M. Правильная балансировка может сократить расходы на 20–30% по сравнению с чисто managed‑схемой. При нагрузке 10 млн запросов в месяц гибрид экономит от $1500 до $3000.

Провайдер	Сильная сторона	Ограничение
Alchemy	Supernode, Enhanced APIs, webhooks	Дорогой на high-volume
QuickNode	Низкая latency, multi-chain	Дороже Alchemy на базовом плане
Infura	Историческая надёжность	Rate limits на бесплатном, один крупный инцидент остановил пол‑DeFi
Ankr	Дешёвый, 40+ чейнов	Менее стабильный

Как настроить RPC-слой без единой точки отказа?

Минимум два провайдера, DNS round‑robin с health check каждые 5 секунд, автоматическое переключение на fallback при latency >500 мс. На практике это даёт 99.99% доступности при любом сбое провайдера. Для протоколов с TVL от $10M мы рекомендуем собственный HA‑прокси (nginx или Envoy) перед двумя managed‑провайдерами.

Почему гибридная RPC-схема выгоднее чисто managed?

При 50 млн запросов в месяц Alchemy стоит $2000+, QuickNode — $2500+, собственная нода — $400–600 за хостинг + DevOps. Гибрид: primary — своя нода ($500), fallback — QuickNode ($500), итого ~$1000. Экономия 50–60% без потери SLA.

Клиенты нод Ethereum

Execution clients: Geth (наиболее используемый), Nethermind (C#, быстрая sync), Besu (Java, enterprise), Erigon (самый быстрый sync, архивный режим эффективен по диску — ~2TB вместо 3TB).

Consensus clients (post‑Merge): Lighthouse (Rust), Prysm (Go), Teku (Java), Nimbus (Nim). Каждая нода после The Merge требует пары execution + consensus client.

Для DevOps: eth‑docker — Docker Compose конфигурации для всех комбинаций клиентов. Настройка мониторинга через Grafana + Prometheus — обязательна, стандартный дашборд есть в репозитории каждого клиента.

The Graph: индексация событий

The Graph Protocol — decentralized indexing. Subgraph описывает какие события с каких контрактов индексировать и как трансформировать их в GraphQL схему.

Структура subgraph:

subgraph.yaml — манифест: адреса контрактов, startBlock, события которые обрабатываются
schema.graphql — GraphQL схема entities
src/mapping.ts — AssemblyScript обработчики событий

dataSources:
  - kind: ethereum
    name: UniswapV3Pool
    network: mainnet
    source:
      address: "0x88e6A0c2dDD26FEEb64F039a2c41296FcB3f5640"
      abi: UniswapV3Pool
      startBlock: 12370624
    mapping:
      eventHandlers:
        - event: Swap(indexed address,indexed address,int256,int256,uint160,uint128,int24)
          handler: handleSwap

AssemblyScript handlers — не TypeScript. Нет nullable types, нет closures, нет многих стандартных API. Ошибка в handler останавливает индексацию subgraph-а на той транзакции. Важно: добавлять try‑catch на операции которые могут падать (например store.get() для entity которая может не существовать).

Как избежать остановки индексации субграфа?

Лог файлы Graph Node мониторятся в реальном времени, при hasIndexingErrors = true срабатывает алерт и автоматический рестарт ноды (через systemd или Kubernetes). Типичный downtime при ошибке — 150–300 секунд до восстановления. Дополнительно: для production ставим watchdog, который перезапускает Graph Node если subgraph lag превышает 50 блоков.

Выбор между Hosted Service и Decentralized Network

Graph Hosted Service (бесплатный, централизованный) deprecated в пользу Subgraph Studio + Graph Network. Для продакшн: деплой на Graph Network с GRT curation signal — субграф получает indexers пропорционально curation.

Альтернативы The Graph: Ponder (TypeScript, self-hosted, проще дебагать), Envio (ultra‑fast indexer, поддерживает EVM + non‑EVM), Subsquid (TypeScript, своя сеть), Moralis Streams (managed, webhook‑based). Наш опыт показывает: для высоконагруженных проектов с уникальной логикой эффективнее Ponder или Envio — они дают полный контроль над процессом и не требуют токеномики GRT.

Webhooks и real-time нотификации

Alchemy Webhooks и QuickNode Streams позволяют получать события в реальном времени через HTTP webhook или WebSocket. Для мониторинга адресов, новых транзакций, минтов — это быстрее чем polling RPC.

Tenderly — платформа для мониторинга и алертов. Можно настроить alert на конкретный event из контракта, на изменение баланса, на вызов функции с определёнными параметрами. Симуляция транзакций через Tenderly API — бесценно для debugging.

Мониторинг и observability

Минимальный стек мониторинга для протокола:

On‑chain: OpenZeppelin Defender Sentinel — watches contract events, вызывает webhook или Autotask при срабатывании условий. Forta Network — community‑maintained боты детектируют аномалии (большие withdrawals, flash loans, governance attacks).

Infrastructure: Grafana + Prometheus для нод, Datadog или Grafana Cloud для managed метрик. Alert на: нода отстала на 10+ блоков, RPC latency > 500ms, subgraph lag > 100 блоков.

Uptime: Better Uptime или PagerDuty на RPC endpoint и subgraph health endpoint (The Graph предоставляет _meta { hasIndexingErrors, block { number } }).

Почему мониторинг без Tenderly недостаточен?

Tenderly даёт симуляцию транзакций и детальные трейсы — это критично для отладки ошибок в субграфах и смарт‑контрактах. Forta же фокусируется на аномалиях в сети, а не на вашей инфраструктуре. Комбинация Tenderly + собственный дашборд Grafana покрывает 90% сценариев инцидентов.

Мультичейн инфраструктура

Протокол на 5 чейнах = 5 отдельных RPC endpoints, 5 subgraphs, 5 мониторинг‑конфигов. Это управляемо, но нужна автоматизация деплоя.

Для subgraph multi‑network деплой: graph deploy --network mainnet, graph deploy --network arbitrum-one и т.д. с единой кодовой базой и network‑specific адресами в отдельных файлах конфигурации.

Chainlink CCIP и LayerZero для cross‑chain messaging требуют мониторинга состояния обоих чейнов и транзакций на intermediate relayers. Реорг на source chain при уже подтверждённом минте на target chain — классическая проблема мостов. Решение: ждать finality (на Ethereum ~15 минут после Merge для экономической finality) перед подтверждением на target chain.

Процесс настройки инфраструктуры

Аудит текущего стека — определяем чейны, объём запросов, требования к latency и доступности.
Проектирование архитектуры — выбор провайдеров, балансировка, redundancy.
Разработка subgraph — манифест → схема → handlers → тестирование на локальной Graph Node → деплой на testnet → mainnet.
Конфигурация мониторинга — Tenderly alerts, Grafana дашборд, PagerDuty интеграция.
Документация и runbook — что делать при: subgraph fell behind, RPC downtime, нода desync.
Передача в эксплуатацию — обучение команды, передача доступов, поддержка первый месяц.

Что входит в работу

Развёртывание managed или self‑hosted нод Ethereum, Polygon, BNB Chain
Настройка RPC‑слоя с primary/fallback и load balancing
Разработка и деплой subgraph под ваш протокол
Подключение мониторинга (Tenderly, Grafana, алерты)
Создание runbook и документации по эксплуатации
Обучение команды (до 4 часов онлайн)
Поддержка в течение 30 дней после сдачи

Сроки

Работа	Срок
Настройка RPC и базового мониторинга	1–2 недели
Subgraph для одного протокола	2–4 недели
Self-hosted нода с мониторингом	2–3 недели
Полная инфраструктура (multi-chain, мониторинг, runbooks)	6–10 недель

Все проекты ведутся в репозитории на GitHub/GitLab с CI/CD, код конфигураций остаётся у вас. Закажите развертывание инфраструктуры — расскажем, как сократить расходы на 20–30% без потери надёжности. JSON‑RPC спецификация, документация The Graph. Получите консультацию — покажем, как мы развёртывали инфраструктуру для протокола с TVL $50M+ на Ethereum и Arbitrum.

Свяжитесь с нами.