Обучение модели на основе Transformer для прогноза цены
Архитектура Transformer разработана для NLP показала отличные результаты и в задачах временных рядов. Механизм self-attention позволяет модели напрямую обращаться к любому историческому моменту без рекуррентного прохода, устраняя затухание градиентов на длинных последовательностях.
Ключевые преимущества над LSTM:
- Прямой attention к долгосрочным зависимостям
- Полная параллелизация обучения
- Лучше на больших датасетах
- Attention weights обеспечивают интерпретируемость
TFT (Temporal Fusion Transformer): специализированный для временных рядов с quantile loss для вероятностного прогнозирования.
PatchTST: применяет patching как Vision Transformer для вычислительной эффективности и лучшего захвата локальных паттернов.
Разрабатываем и обучаем Transformer модели с walk-forward валидацией, мультиактивным обучением и production deployment через FastAPI.







