Обучение модели на основе GRU для прогноза цены
GRU (Gated Recurrent Unit) - упрощенная версия LSTM. Вместо трех gate'ов (input, forget, output) как у LSTM, GRU имеет два: reset gate и update gate. Это делает GRU быстрее в обучении и inference при сопоставимом качестве на большинстве задач.
GRU vs LSTM: когда что выбирать:
- GRU предпочтительнее когда: данных < 1 года, нужен быстрый inference, ресурсы ограничены, быстрое прототипирование
- LSTM предпочтительнее когда: много данных (3+ лет), критична долгосрочная память (200+ свечей контекста), требуется тонкое управление памятью
Особенности архитектуры:
- Temporal attention для лучшего представления
- Bidirectional GRU для более богатых признаков
- Monte Carlo Dropout для оценки неопределенности
- Multi-step forecasting с отдельными heads
Вычислительные требования:
- Обучение на CPU: ~2 часа на 2 года 1h данных
- Обучение на GPU (T4): ~15 минут
- Inference: < 5ms на CPU для одного батча
Ансамбль подход: несколько GRU моделей обученных с разными seed и гиперпараметрами более стабильны чем одна модель.
Разрабатываем и обучаем GRU ансамбль с temporal awareness, Monte Carlo Dropout для неопределенности, multi-step forecasting и production-ready API.







