Разработка системы хранения tick-данных
Tick-данные — это каждая отдельная сделка на бирже: время, цена, объём, сторона (maker/taker). В отличие от OHLCV-свечей, tick-данные позволяют восстановить полную картину активности рынка в любой момент. Это требует значительно больше места для хранения и специальной инфраструктуры.
Объёмы данных
Чтобы понять масштаб задачи: Binance по BTC/USDT генерирует порядка 50,000–200,000 трейдов в сутки. По всем парам на всех биржах — сотни миллионов записей в день. Год данных — десятки миллиардов строк. Обычный PostgreSQL с этим не справится без специальных решений.
Технологии хранения
ClickHouse — колоночная СУБД от Yandex, оптимизированная для аналитических запросов на больших объёмах. Сжимает временные ряды в 5–20 раз лучше PostgreSQL, выполняет агрегации по миллиардам строк за секунды.
CREATE TABLE trades (
exchange LowCardinality(String),
symbol LowCardinality(String),
trade_id String,
timestamp DateTime64(3, 'UTC'),
price Decimal(24, 8),
quantity Decimal(24, 8),
side LowCardinality(String),
is_maker Bool
)
ENGINE = MergeTree()
PARTITION BY (exchange, toYYYYMM(timestamp))
ORDER BY (exchange, symbol, timestamp)
SETTINGS index_granularity = 8192;
LowCardinality для строк с небольшим количеством уникальных значений (exchange, symbol, side) — автоматический dictionary encoding даёт значительную экономию места.
TimescaleDB — если уже используете PostgreSQL и объёмы умеренные (< 1 млрд строк). Поддерживает hypertables с автоматическим партиционированием по времени, compression policies.
Arctic (Python library, на MongoDB) — специализированное решение для финансовых временных рядов. Поддерживает tick-data, OHLCV, arbitrary DataFrames с версионированием.
Схема для ClickHouse
Для максимальной производительности записи используем буферную таблицу:
-- Буфер: накапливает данные в памяти, сбрасывает каждые 10 сек или 1M строк
CREATE TABLE trades_buffer AS trades
ENGINE = Buffer(currentDatabase(), 'trades', 16, 10, 100, 10000, 1000000, 10000000, 100000000);
-- Записываем в буфер, читаем из основной таблицы
INSERT INTO trades_buffer VALUES (...);
SELECT * FROM trades WHERE ...;
Запросы на tick-данных
Агрегация tick-данных в OHLCV на лету:
SELECT
toStartOfInterval(timestamp, INTERVAL 1 MINUTE) AS candle_time,
argMin(price, timestamp) AS open,
max(price) AS high,
min(price) AS low,
argMax(price, timestamp) AS close,
sum(quantity) AS volume,
count() AS trade_count
FROM trades
WHERE exchange = 'binance'
AND symbol = 'BTC/USDT'
AND timestamp BETWEEN '2024-01-01' AND '2024-01-02'
GROUP BY candle_time
ORDER BY candle_time;
На ClickHouse этот запрос по 50M строк выполняется за 1–3 секунды.
Ingestion pipeline
import asyncio
from collections import deque
class TickDataIngester:
BATCH_SIZE = 10000
FLUSH_INTERVAL = 5.0 # секунды
def __init__(self, clickhouse_client):
self.buffer = deque()
self.client = clickhouse_client
async def on_trade(self, trade: NormalizedTrade):
self.buffer.append(trade)
if len(self.buffer) >= self.BATCH_SIZE:
await self.flush()
async def flush(self):
if not self.buffer:
return
batch = [self.buffer.popleft() for _ in range(min(self.BATCH_SIZE, len(self.buffer)))]
await self.client.insert('trades_buffer', batch)
async def flush_loop(self):
while True:
await asyncio.sleep(self.FLUSH_INTERVAL)
await self.flush()
Компрессия и retention
ClickHouse сжимает данные автоматически. Дополнительно можно включить cold storage через TTL:
ALTER TABLE trades
MODIFY TTL timestamp + INTERVAL 1 YEAR TO DISK 'cold_storage';
Данные старше года автоматически переносятся на более дешёвое хранилище (S3-совместимое через ClickHouse object storage).
Бэкфилл исторических данных
Для заполнения исторических данных используем публичные API бирж. Binance, например, предоставляет trade history через /api/v3/aggTrades с пагинацией по fromId. Параллельный бэкфилл по временным диапазонам с rate limiting позволяет загрузить годы данных за несколько часов.







