Разработка pipeline обработки tick-данных для ML
Tick-данные — запись каждой отдельной сделки: цена, объем, сторона (buy/sell), timestamp. Это самый гранулярный уровень рыночных данных, содержащий информацию, которая полностью теряется при агрегации в OHLCV свечи.
Сбор tick-данных: WebSocket соединение с trade stream буфером, batch insert в базу данных (PostgreSQL или ClickHouse).
Хранение: ClickHouse для tick-данных - 500K+ строк/секунду скорость вставки, быстрые агрегации.
Агрегация: custom OHLCV создание на любом таймфрейме. Volume bars (N единиц объема), dollar bars (N USD объема), imbalance bars (N buy/sell дисбаланса).
Feature engineering из тиков: buy/sell давление, частота сделок, средний размер сделки, большая сделка ratio, VWAP отклонение, анализ распределения размера сделки.
Анализ размера сделки: крупные сделки сигнализируют об institutional activity. Сравниваем price impact крупных vs мелких сделок.
Realtime pipeline: Binance WebSocket → asyncio consumer → буфер → ClickHouse batch insert → Redis sorted set → feature calculator → ML inference.
Latency: от получения тика до выходного сигнала < 10ms для Python asyncio pipeline.
Разрабатываем полный tick-data pipeline: WebSocket коллектор, ClickHouse хранение, custom bar типы, feature engineering, realtime ML inference.







