Разработка AI-системы для финансов
Финансовый сектор — один из наиболее зрелых потребителей ML. Данные структурированы, цифровые транзакции полностью логируются, финансовый стимул для улучшения решений максимален. Это создаёт богатую почву для AI.
Ключевые применения ML в финансах
Кредитный скоринг и андеррайтинг
Традиционные скоринговые модели (FICO, НБКИ) используют узкий набор признаков. ML-скоринг:
- Альтернативные данные: транзакционное поведение, телефонные данные, поведение в браузере
- Нелинейные взаимодействия признаков
- Более точное предсказание PD (Probability of Default)
XGBoost + calibration: Gini coefficient +8–15 п.п. vs. логистической регрессии. Особенно важно для тонкого кредитного файла (thin file) — заёмщики без кредитной истории.
Regulatory требование: explainability (ECOA в США, requirements по разъяснению отказа). SHAP values для каждого решения — obligation.
Антифрод
Fraud detection в карточных транзакциях, онлайн-платежах, банковских переводах. XGBoost/LightGBM на tabular данных + GNN на transaction graph. Метрики: precision@top-1% важнее AUC (нужно поймать максимум фрода при минимуме ложных блокировок).
Управление рисками
- Credit risk: PD, LGD, EAD моделирование
- Market risk: VaR, ES (Expected Shortfall) моделирование с ML
- Operational risk: предсказание операционных инцидентов
- Liquidity risk: прогнозирование оттоков депозитов
IFRS 9 / Basel III требуют forward-looking модели с множественными сценариями — область, где ML превосходит классические econometric подходы.
Algorithmic Trading
ML в трейдинге: предсказание краткосрочных ценовых движений, factor investing (ML-отбор факторов), portfolio optimization, execution optimization. Детально — в отдельных сервисных страницах.
Регуляторная отчётность (RegTech)
NLP для извлечения данных из документов, автоматизация заполнения форм (ЦБ, SEC, FATF). Мониторинг изменений в регуляторной базе (regulatory change management).
Data Infrastructure для финансового ML
Feature Store
Централизованное хранилище признаков с версионированием и low-latency serving. Feast, Tecton, Hopsworks. Критично для: онлайн-скоринга с latency <100ms, консистентности признаков между обучением и инференсом.
Real-time Streaming
Карточные транзакции требуют решения за 200–300ms. Kafka + Flink для streaming feature computation. Precomputed features для часто используемых агрегатов.
Model Governance
Финансовые регуляторы требуют документирования и валидации моделей (SR 11-7 в США). MLflow для versioning, model cards для документирования, shadow mode testing перед деплоем.
Alternative Data
Спутниковые снимки парковок ритейлеров для предсказания трафика, satellite nighttime lights для экономической активности, web scraping для прогнозирования позиций компаний.
Особенности разработки финансовых ML-систем
Data Snooping Bias
Главная проблема backtesting: большое число моделей тестируется на тех же данных → случайное угадывание. Строгие out-of-time validation, combinatorial purged cross-validation (Lopez de Prado).
Concept Drift
Финансовые рынки меняются: модели, обученные в 2018, не работают в 2022. Continuous monitoring на distribution shift, automated retraining triggers, ensemble с более новыми и старыми данными.
Adversarial Robustness
Мошенники адаптируются к моделям. Adversarial training, model versioning с concealment от production до rollout.
Срок разработки: от 2 месяцев (simple credit scoring) до 12+ месяцев (full quantitative platform).







