Разработка pipeline обработки order book данных для ML
Order book данные — богатейший источник информации о рыночной структуре. Полный стакан заявок содержит информацию об ожидаемом спросе/предложении, которая недоступна из OHLCV данных. Однако объем и структура этих данных требуют специализированного pipeline.
Order book уровни:
- Level 1 (Top of Book): лучший bid и ask с объемами. Минимальный объем, максимальная актуальность.
- Level 2 (Full Depth): все уровни стакана с объемами. Binance предоставляет глубину 5000 уровней. Обновляется через WebSocket diff stream.
- Level 3 (Full Order Feed): каждый отдельный ордер с ID. Доступен не на всех биржах, максимальная детальность.
Order Book Imbalance (OBI) — наиболее исследованный признак из order book для краткосрочного прогнозирования:
OBI = (bid_volume - ask_volume) / (bid_volume + ask_volume)
Положительный OBI указывает на давление покупателей, отрицательный указывает на давление продавцов.
Feature engineering из order book: OBI на разных уровнях, OBI moving average, OBI изменение, spread динамика, depth стабильность, weighted mid price, depth асимметрия.
Хранение: ClickHouse для order book данных - высокая скорость записи, эффективное колоночное хранение, быстрые агрегации. Level 2 snapshots каждые 100ms потребляют ~69M записей/день.
Краткосрочный прогноз цены: предсказать изменение mid-price через N обновлений order book (~1 секунда) используя OBI и depth признаки. LightGBM/XGBoost для модели.
Разрабатываем полный order book ML pipeline: WebSocket коллектор с инкрементальным обновлением, ClickHouse для хранения снэпшотов, feature engineering из OBI и depth данных, обучение краткосрочной прогностической модели и realtime inference.







