Что такое order book imbalance (OBI)?

OBI — отношение объёма заявок на покупку к объёму на продажу на определённой глубине стакана. Значение >1 указывает на доминирование покупателей, <1 — продавцов. Используется как предиктор краткосрочного движения цены.

Как часто нужно обновлять order book для ML?

Для высокочастотных стратегий — каждые 100 мс (типичный интервал WebSocket diff stream). Для среднесрочных моделей достаточно снимков раз в 1-5 секунд. Частота влияет на объём данных и latency пайплайна.

Какие ML-модели лучше всего работают с order book данными?

LightGBM и XGBoost показывают отличные результаты на табличных признаках OBI, спреда и глубины. Для последовательностей (LSTM, Transformer) нужна бо́льшая история, но они учитывают временную динамику. Мы часто используем LightGBM как baseline.

Сколько времени занимает разработка полноценного pipeline?

От 14 до 30 рабочих дней в зависимости от сложности: количество бирж, уровней стакана, необходимых ML-признаков и интеграции с торговой системой. Базовый pipeline с одним инструментом и моделью — около 3 недель.

Какие данные нужны для начала разработки pipeline?

Минимально: список торговых пар, требуемая глубина стакана (L2, L3), частота обновлений. Желательно также иметь примеры REST-снимков и WebSocket-стримов для выбранной биржи. Мы помогаем с настройкой всех источников.

Что такое order book imbalance (OBI)?

OBI — отношение объёма заявок на покупку к объёму на продажу на определённой глубине стакана. Значение >1 указывает на доминирование покупателей, <1 — продавцов. Используется как предиктор краткосрочного движения цены.

Как часто нужно обновлять order book для ML?

Для высокочастотных стратегий — каждые 100 мс (типичный интервал WebSocket diff stream). Для среднесрочных моделей достаточно снимков раз в 1-5 секунд. Частота влияет на объём данных и latency пайплайна.

Какие ML-модели лучше всего работают с order book данными?

LightGBM и XGBoost показывают отличные результаты на табличных признаках OBI, спреда и глубины. Для последовательностей (LSTM, Transformer) нужна бо́льшая история, но они учитывают временную динамику. Мы часто используем LightGBM как baseline.

Сколько времени занимает разработка полноценного pipeline?

От 14 до 30 рабочих дней в зависимости от сложности: количество бирж, уровней стакана, необходимых ML-признаков и интеграции с торговой системой. Базовый pipeline с одним инструментом и моделью — около 3 недель.

Какие данные нужны для начала разработки pipeline?

Минимально: список торговых пар, требуемая глубина стакана (L2, L3), частота обновлений. Желательно также иметь примеры REST-снимков и WebSocket-стримов для выбранной биржи. Мы помогаем с настройкой всех источников.

Разработка pipeline обработки order book данных для ML

Q: Как часто нужно обновлять order book для ML?

Для высокочастотных стратегий — каждые 100 мс (типичный интервал WebSocket diff stream). Для среднесрочных моделей достаточно снимков раз в 1-5 секунд. Частота влияет на объём данных и latency пайплайна.

Q: Какие ML-модели лучше всего работают с order book данными?

LightGBM и XGBoost показывают отличные результаты на табличных признаках OBI, спреда и глубины. Для последовательностей (LSTM, Transformer) нужна бо́льшая история, но они учитывают временную динамику. Мы часто используем LightGBM как baseline.

Q: Сколько времени занимает разработка полноценного pipeline?

От 14 до 30 рабочих дней в зависимости от сложности: количество бирж, уровней стакана, необходимых ML-признаков и интеграции с торговой системой. Базовый pipeline с одним инструментом и моделью — около 3 недель.

Q: Какие данные нужны для начала разработки pipeline?

Минимально: список торговых пар, требуемая глубина стакана (L2, L3), частота обновлений. Желательно также иметь примеры REST-снимков и WebSocket-стримов для выбранной биржи. Мы помогаем с настройкой всех источников.

Проектируем и разрабатываем блокчейн-решения полного цикла: от архитектуры смарт-контрактов до запуска DeFi-протоколов, NFT-маркетплейсов и криптобирж. Аудит безопасности, токеномика, интеграция с существующей инфраструктурой.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1305 услуг

Разработка pipeline обработки order book данных для ML

Сложный

~1-2 недели

Часто задаваемые вопросы

Направления блокчейн-разработки

Обсудить блокчейн-проект

Бесплатная консультация — расскажем, как блокчейн решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего блокчейн-проекта

Этапы блокчейн-разработки

Последние работы

Разработка сайта компании B2B ADVANCE
1361
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1189
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Полный стакан ордеров содержит всю информацию о ликвидности на бирже. Но собрать его, нормализовать и превратить в признаки для машинного обучения — нетривиальная инженерная задача. Мы построили production-grade pipeline для Binance, Bybit и OKX, который обрабатывает до 10 000 обновлений в секунду. Наш опыт включает интеграцию с 15+ криптобиржами и хранение порядка 5 ТБ данных в месяц. Полный L2 стакан описывает каждый уровень цены с объёмом — это основа для построения краткосрочных прогнозов. Гарантируем стабильный сбор при пиковых нагрузках и консистентность снэпшотов.

Заказчики часто приходят с сырыми WebSocket-стримами, не зная, как синхронизировать diff stream с REST-снимком. Ошибка в one-off приводит к разъезду стакана и неверным сигналам. Мы решаем эту проблему на уровне архитектуры коллектора.

Проблемы, которые решаем

Объём данных. Полный L2 стакан на Binance содержит 5000 уровней с каждой стороны. При обновлениях каждые 100 мс это генерирует десятки гигабайт в день. Наивное хранение в PostgreSQL убьёт производительность.
Гонка состояний. WebSocket diff stream приходит асинхронно. Без синхронизации с REST-снимком стакан разъезжается — цена уходит в несуществующие уровни.
Формат данных. Каждая биржа отдаёт стакан по-своему: Binance — вложенные массивы, Coinbase — JSON с разными ключами. Нужен единый интерфейс.

Как синхронизировать WebSocket diff stream с REST-снимком?

Алгоритм прост: открываем WebSocket, получаем первый diff stream, сразу запрашиваем REST-снимок с полным состоянием. Далее каждое обновление накладываем на локальный стакан. Для контроля используем lastUpdateId: применяем только сообщения с u > lastUpdateId. Если последовательность нарушена — перезапрашиваем снимок. Этот подход исключает разъезд стакана даже при высокой волатильности.

Как собрать order book через WebSocket: пошаговый алгоритм

Установка соединения: через wss://stream.binance.com:9443/ws/btcusdt@depth@100ms (аналог для других бирж).
Первоначальный REST-снимок: синхронизация через updateId для обеспечения консистентности.
Инкрементальные обновления: каждое сообщение diff stream накладывается на текущее состояние стакана.
Сохранение снэпшотов: с заданной периодичностью (каждое N-е обновление) фиксируется полное состояние для последующего feature engineering.

Пример кода коллектора:

import asyncio
import websockets
import json
from collections import deque

class OrderBookCollector:
    def __init__(self, symbol, max_depth=100):
        self.symbol = symbol
        self.bids = {}
        self.asks = {}
        self.max_depth = max_depth
        self.snapshots = deque(maxlen=10000)

    async def connect_binance(self):
        url = f"wss://stream.binance.com:9443/ws/{self.symbol.lower()}@depth@100ms"
        async with websockets.connect(url) as ws:
            await self.fetch_snapshot()
            async for msg in ws:
                data = json.loads(msg)
                self.process_diff_update(data)
                if len(self.snapshots) % 10 == 0:
                    self.save_snapshot()

    def process_diff_update(self, data):
        for bid_level in data.get('b', []):
            price, qty = float(bid_level[0]), float(bid_level[1])
            if qty == 0:
                self.bids.pop(price, None)
            else:
                self.bids[price] = qty
        for ask_level in data.get('a', []):
            price, qty = float(ask_level[0]), float(ask_level[1])
            if qty == 0:
                self.asks.pop(price, None)
            else:
                self.asks[price] = qty

    def get_features(self, n_levels=20):
        sorted_bids = sorted(self.bids.items(), reverse=True)[:n_levels]
        sorted_asks = sorted(self.asks.items())[:n_levels]
        if not sorted_bids or not sorted_asks:
            return None
        mid_price = (sorted_bids[0][0] + sorted_asks[0][0]) / 2
        features = {}
        for i, (price, qty) in enumerate(sorted_bids[:10]):
            features[f'bid_qty_{i}'] = qty
            features[f'bid_dist_{i}'] = (mid_price - price) / mid_price
        for i, (price, qty) in enumerate(sorted_asks[:10]):
            features[f'ask_qty_{i}'] = qty
            features[f'ask_dist_{i}'] = (price - mid_price) / mid_price
        bid_vol_n = sum(qty for _, qty in sorted_bids[:5])
        ask_vol_n = sum(qty for _, qty in sorted_asks[:5])
        features['obi_5'] = (bid_vol_n - ask_vol_n) / (bid_vol_n + ask_vol_n + 1e-8)
        bid_vol_20 = sum(qty for _, qty in sorted_bids[:20])
        ask_vol_20 = sum(qty for _, qty in sorted_asks[:20])
        features['obi_20'] = (bid_vol_20 - ask_vol_20) / (bid_vol_20 + ask_vol_20 + 1e-8)
        features['wmid'] = (sorted_bids[0][0] * sorted_asks[0][1] + sorted_asks[0][0] * sorted_bids[0][1]) / (sorted_bids[0][1] + sorted_asks[0][1])
        features['spread'] = (sorted_asks[0][0] - sorted_bids[0][0]) / mid_price
        for n in [5, 10, 20]:
            bid_depth = sum(qty for _, qty in sorted_bids[:n])
            ask_depth = sum(qty for _, qty in sorted_asks[:n])
            features[f'depth_ratio_{n}'] = bid_depth / max(ask_depth, 1e-8)
        return features

Почему ClickHouse — оптимальное хранилище для order book?

Полный L2 стакан — огромный объём. ClickHouse в 10 раз быстрее PostgreSQL на колоночных агрегациях. Согласно документации ClickHouse, колоночная СУБД обеспечивает сжатие до 10 раз и скорость записи более 1 млн строк в секунду. Сравните:

СУБД	Скорость записи (строк/с)	Сжатие	Агрегации по времени
PostgreSQL	~100 000	2-5x	Медленные
TimescaleDB	~200 000	3-6x	Средние
ClickHouse	~1 000 000	5-10x	Быстрые

Пример схемы хранения с автоматическим TTL:

CREATE TABLE order_book_snapshots (
    timestamp DateTime64(3),
    symbol LowCardinality(String),
    exchange LowCardinality(String),
    bid_price_0 Float32, bid_qty_0 Float32,
    bid_price_1 Float32, bid_qty_1 Float32,
    -- ... до bid_price_19, bid_qty_19
    ask_price_0 Float32, ask_qty_0 Float32,
    -- ...
    spread Float32,
    obi_5 Float32,
    obi_20 Float32
) ENGINE = MergeTree()
PARTITION BY toYYYYMMDD(timestamp)
ORDER BY (symbol, timestamp)
TTL timestamp + INTERVAL 90 DAY;

Экономия на инфраструктуре при использовании ClickHouse достигает 70% за счёт сжатия — это около $20,000 в год для проекта с 5 ТБ данных. Для крупных проектов экономия может достигать $30,000 в год.

Feature engineering из order book

На основе собранных снэпшотов строим признаки. Базовые: OBI (order book imbalance), спред, глубина. Дополнительные: скользящие средние OBI, его волатильность, кумулятивный поток ордеров (COF).

def engineer_orderbook_features(snapshots_df, window_sizes=[10, 50, 100]):
    features = snapshots_df.copy()
    for window in window_sizes:
        features[f'obi_5_ma_{window}'] = features['obi_5'].rolling(window).mean()
        features[f'obi_5_delta_{window}'] = features['obi_5'].diff(window)
        features[f'obi_5_std_{window}'] = features['obi_5'].rolling(window).std()
    features['cof'] = features['obi_5'].cumsum()
    features['cof_ma'] = features['cof'].rolling(100).mean()
    features['cof_deviation'] = features['cof'] - features['cof_ma']
    features['spread_ma'] = features['spread'].rolling(50).mean()
    features['spread_ratio'] = features['spread'] / features['spread_ma']
    features['depth_change'] = features['depth_ratio_10'].diff(10)
    return features

Как оценить качество прогноза mid-price?

Для краткосрочного прогноза mid-price (через N обновлений стакана) используем метрики accuracy, precision и F1-score для бинарной классификации направления движения. Код подготовки обучающей выборки:

def create_training_data(snapshots_df, prediction_horizon=10):
    features = engineer_orderbook_features(snapshots_df)
    future_mid = snapshots_df['mid_price'].shift(-prediction_horizon)
    current_mid = snapshots_df['mid_price']
    target = np.sign(future_mid - current_mid)
    valid_mask = features.notna().all(axis=1) & target.notna()
    return features[valid_mask], target[valid_mask]

Типичные ошибки при разработке order book pipeline

Даже опытные команды допускают ошибки: игнорирование перекосов стакана в моменты высокой волатильности, неправильная обработка событий lastUpdateId, отсутствие проверки консистентности после реконнекта. Мы сталкивались с проектом, где из-за пропущенных диффов стакан разошёлся на 20% — модель показывала ложные сигналы. Решение — встраивание проверок контрольных сумм и автоматическое восстановление полного снэпшота при обнаружении несоответствия.

Что входит в разработку pipeline

Исходный код коллектора и пайплайна (асинхронный Python).
Дампы тестовых данных для offline-тестирования.
README с подробными примерами использования.
Миграции схемы ClickHouse с TTL.
Обучение вашей команды работе с pipeline.

Этапы работы и сроки

Этап	Длительность	Результат
Аналитика	2-3 дня	Спецификация API, объёмов
Проектирование	2-3 дня	Схема хранения, выбор признаков
Реализация	5-10 дней	Коллектор, пайплайн, код
Тестирование	3-5 дней	Симуляция 24h, отчёты
Деплой	2-3 дня	Docker, мониторинг

Базовый pipeline для одной биржи с моделью LightGBM — от 14 до 30 рабочих дней. Точную оценку даём после бесплатного аудита ваших данных. Закажите анализ — и мы подберём оптимальную архитектуру под ваш объём стакана. Свяжитесь с нами для консультации.

Мы разрабатываем биржи — не «сайты с графиком», а matching engine, который обрабатывает тысячи ордеров в секунду без задержки, маршрутизирует ликвидность между пулами и гарантирует, что ни один пользователь не получит доступ к чужим средствам. Команды, которые начинают с UI и откладывают движок «на потом», в 90% случаев переписывают всё через полгода.

Какие проблемы решает правильная архитектура?

Order Book vs AMM: где ломается большинство проектов

Централизованные биржи (CEX) строятся вокруг order book + matching engine. Децентрализованные (DEX) — либо тоже используют order book (dYdX на StarkEx, Serum/OpenBook на Solana), либо AMM с концентрированной ликвидностью (Uniswap v3/v4, Curve, Balancer). Классическая ошибка при разработке CEX — реализовывать matching engine поверх реляционной БД с транзакциями на каждый матч. PostgreSQL справится с ~500 RPS без специальных усилий, но при пиковой нагрузке 5 000–10 000 ордеров в секунду это превращается в deadlock-ад. Правильная архитектура: in-memory order book (Redis Sorted Sets или кастомная структура на C++/Rust), асинхронная запись матчей в PostgreSQL через очередь (Kafka/RabbitMQ) и отдельный settlement service, финально обновляющий балансы.

Для DEX самая болезненная проблема — sandwich атаки и MEV. Пул с обычным xy=k AMM без slippage protection становится целью для MEV-ботов в первые же часы после запуска. Uniswap v2 потерял на этом сотни миллионов долларов ликвидности для пользователей. Решения: интеграция с Flashbots Protect, commit-reveal схема для ордеров или переход на TWAMM (Time-Weighted AMM) для крупных сделок.

Концентрированная ликвидность и impermanent loss

Uniswap v3 ввёл концентрированную ликвидность — LP выбирают ценовой диапазон, в котором предоставляют ликвидность. Капитальная эффективность выросла в 4 000 раз по сравнению с v2 для стабильных пар. Но реализовать этот механизм правильно — нетривиальная задача. Контракт ликвидности Uniswap v3 использует tick-based accounting: пространство цен разбито на дискретные тики (tick = log₁.0001(price)), каждый тик хранит накопленные fee growth и liquidity delta. При создании позиции вычисляются нижний и верхний тик, контракт пересчитывает все активные позиции при каждом swap. Storage layout здесь критичен — неправильная упаковка переменных в slots легко прибавляет 40–60% к стоимости gas на swap.

Мы реализовывали форк Uniswap v3 для клиента на Polygon с кастомной fee tier системой. Первоначальная версия тратила 180k gas на swap через 2 тика. После slot packing переменных в Tick.Info и инлайнинга нескольких internal вызовов — 112k gas. Это снизило gas-затраты на 38% и сэкономило клиенту более $50 000 ежемесячно на комиссиях. Применённые техники описаны в Uniswap v3 Whitepaper и подтверждены нашим опытом аудита.

Что такое matching engine и почему он критичен?

Production-ready matching engine строится по следующей схеме:

Order ingestion layer — WebSocket gateway (Go или Rust), принимает ордера, валидирует подпись, проверяет баланс через Redis, ставит в очередь. Latency на этом уровне должна быть <1ms.
Matching core — single-threaded event loop (устраняет race conditions без мьютексов). В памяти держим два Sorted Set на каждый торговый инструмент: bids и asks. FIFO matching для limit ордеров, immediate-or-cancel для маркет. Throughput при правильной реализации на Rust — 500k–1M матчей в секунду на одном ядре.
Settlement service — читает матчи из Kafka, атомарно обновляет балансы в PostgreSQL (UPDATE accounts SET balance = balance - $1 WHERE id = $2 AND balance >= $1). Optimistic locking через версионирование строк.
Withdrawal pipeline — отдельный сервис с cold/hot wallet архитектурой. Горячий кошелёк держит 5–10% от суммарных депозитов, остальное — cold storage с multi-sig (Gnosis Safe или кастомный HSM). Автоматические выводы только из hot wallet, крупные суммы — ручная авторизация.

Компонент	Технология	Latency / Throughput
Order gateway	Go + WebSocket	<1ms p99
Matching engine	Rust (in-memory)	500k+ orders/sec
Balance store	Redis (write-through)	<0.5ms
Settlement DB	PostgreSQL 14+	~50k TPS с partitioning
Event streaming	Apache Kafka	1M+ events/sec
Blockchain node	Geth / Solana validator	зависит от чейна

Как мы строим on-chain DEX: смарт-контракты и gas-оптимизация

Для DEX на EVM (Ethereum, Arbitrum, Optimism, Polygon) весь критический путь живёт в Solidity. Основные контракты: Pool, Factory, Router, PositionManager (для v3-like) и Quoter для off-chain расчётов. Типичные ошибки, которые мы видим в аудитах:

Reentrancy через callback. Uniswap v3 использует flash swap с callback (uniswapV3SwapCallback). Если в вашем роутере нет nonReentrant guard и вы не проверяете msg.sender == pool, контракт дренируется через вложенный вызов. Это не гипотетика — несколько форков v3 теряли средства именно так.

Oracle manipulation в AMM. Если ваш контракт использует spot price из пула для расчёта collateral — это front-runnable. Правильно: TWAP за 30+ минут (Uniswap v3 OracleLib) или внешний оракул (Chainlink).

Unbounded loops в liquidity range. Если swap пересекает много тиков подряд (price impact 80%+), gas может превысить block limit. Нужен MAX_TICKS_CROSSED с partial fill и возвратом остатка.

Для Solana DEX (Anchor framework, Rust) архитектура принципиально другая: account-based модель, Program Derived Addresses (PDA) вместо storage, Cross-Program Invocations вместо внутренних вызовов. Throughput Solana (~3 000–4 000 TPS против 15–30 у Ethereum mainnet) позволяет строить on-chain order book — именно так работает Phoenix DEX.

Liquidity bootstrapping и интеграция с агрегаторами

Запустить пул мало — нужно обеспечить ликвидность на старте. Практические механизмы:

Liquidity Bootstrapping Pool (LBP) — начальная цена высокая, весовые коэффициенты активов динамически смещаются, создавая давление продаж и равномерное распределение токена. Реализован в Balancer v2.
Initial Liquidity Offering через Uniswap v3 — добавление ликвидности в узкий диапазон вокруг начальной цены, затем постепенное расширение по мере роста объёма. Требует active liquidity management или интеграции с Arrakis/Gamma.
Интеграция с 1inch, Paraswap, Li.Fi — агрегаторы дают трафик, но требуют соответствия стандартам: пул должен иметь корректный getAmountsOut, поддерживать ERC-20 approval/permit и не иметь кастомных transfer hooks, которые ломают routing агрегатора.

Процесс разработки

Аналитика и проектирование начинаются с выбора архитектурной модели: CEX с кастодиальным хранением, non-custodial DEX или гибрид (off-chain order book + on-chain settlement, как dYdX v3). Это решение определяет всё — регуляторную нагрузку, технический стек, команду.

Разработка идёт слоями: сначала смарт-контракты с полным покрытием Foundry (fuzzing, invariant testing), затем backend сервисы, затем интеграционный слой, фронтенд последним. Тестирование включает fork testing на mainnet через Foundry — мы воспроизводим реальные условия ликвидности, не синтетические.

Аудит обязателен перед деплоем на mainnet. Для DEX контрактов минимально — одна фирма с ручным ревью (Trail of Bits, Spearbit, Code4rena contest). Для CEX custody — аудит процессов хранения ключей. Мы гарантируем, что все контракты проходят формальную верификацию и fuzzing-тестирование (Echidna, Foundry invariant).

Что входит в работу (deliverables)

По завершении проекта вы получаете:

Исходный код смарт-контрактов и backend-сервисов под вашу лицензию
Полную техническую документацию (архитектурные схемы, API-спецификации, инструкции по деплою)
Доступы к репозиторию и CI/CD pipeline
Обучение вашей команды работе с кодом (2–3 сессии)
Гарантию на найденные в процессе эксплуатации баги до 6 месяцев
Сертификат прохождения стороннего аудита безопасности

Ориентиры по срокам

DEX (AMM, xy=k) — от 3 до 5 месяцев: контракты + backend + UI
DEX с концентрированной ликвидностью (v3-like) — от 6 до 10 месяцев
CEX (matching engine + custody + торговый UI) — от 8 до 14 месяцев
Интеграция с существующим протоколом — от 4 до 8 недель

Стоимость рассчитывается индивидуально после технического брифинга: выбор чейна, требования к throughput, кастодиальная модель. Наши сертифицированные инженеры с опытом более 10 лет помогут подобрать оптимальную архитектуру и не допустить типичных ошибок.

Типичные грабли при запуске

Забывают про price oracle в AMM. Spot price манипулируется flash loan’ом за одну транзакцию. Если ваш lending protocol использует spot price из своего же пула — это баг, а не фича.
Горячий кошелёк без лимитов. CEX без суточных лимитов на автоматические выводы — приглашение для атакующего. Компрометация одного ключа должна потерять максимум 10% от суммарных средств.
Отсутствие circuit breaker. Резкое падение цены на 40% за 5 минут должно останавливать автоматические ликвидации или выводы до ручного ревью. Без этого cascading liquidation spiral уничтожает весь TVL.
Неправильный decimal handling. USDC использует 6 decimals, WBTC — 8, большинство токенов — 18. Смешивание без нормализации даёт либо потерю точности, либо overflow. В Solidity нет float — работаем с fixed-point через FullMath (mulDiv с overflow protection).

Хотите избежать этих проблем? Свяжитесь с нами для консультации — мы подберём архитектуру под ваш проект и назовём точные сроки. Закажите разработку биржи с гарантией качества и последующей поддержкой.