AI-система для iGaming и гемблинга
В онлайн-гемблинге маржа живёт в деталях: RTP-баланс, детектирование сговора, персонализация бонусов, выявление проблемных игроков. Стандартные rule-based системы справляются с этим хуже каждый год — аудитория умнее, паттерны мошенничества сложнее.
Где ломаются rule-based подходы
Фрод и бонусный абьюз. Классические IP/fingerprint правила обходятся через residential proxy и device spoofing. Реальная задача — выявить coordinated betting rings и multi-accounting кластеры без ложных блокировок легитимных игроков. Precision < 0.60 при recall 0.80 — типичный результат правил, потому что правила не видят поведенческий граф целиком.
Ответственный гемблинг. Регуляторы в Великобритании (UKGC), Мальте (MGA), Германии (GGL) требуют проактивного выявления проблемного поведения, а не реакции на жалобы. Пороговые правила типа "ставки > N в сутки" дают астрономически много false positives.
Рекомендации и ретенция. Статические бонусные шаблоны не работают на аудитории из 50+ рынков с разными предпочтениями.
Архитектура детектирования фрода и сговора
Глубокий разбор именно этого блока, потому что он технически наиболее нетривиален.
Graph Neural Networks для выявления колец
Граф строится так: узлы — аккаунты, рёбра — общие атрибуты (IP, устройство, платёжный метод, временные паттерны). GNN на PyTorch Geometric (GraphSAGE или GAT) обучается предсказывать принадлежность узла к fraudulent cluster.
Проблема датасетов — дисбаланс 1:200–1:500 (фрод : легитимные). Focal loss с gamma=2 и динамическим class_weight даёт рост recall с 0.61 до 0.83 без деградации precision ниже 0.70. На продакшн-кейсе (казино ~400k MAU) GraphSAGE с 3 слоями и hidden_dim=256 обнаруживал ~94% бонусных рингов против ~51% у предыдущей rule-based системы.
Поведенческие embeddings
Сессия игрока представляется как последовательность событий (bet, win, cashout, lobby_browse). Трансформер-энкодер (аналог BERT, fine-tuned под гемблинг-события) создаёт эмбеддинги сессии. Аномальные сессии находятся через Isolation Forest в пространстве этих эмбеддингов — работает даже для новых схем фрода, которых не было в train set.
Realtime-пайплайн
Kafka (events) → Flink (feature aggregation, 1s window)
→ Feature Store (Redis, TTL 24h)
→ Online model serving (Triton Inference Server)
→ Decision API (<50ms P99)
Latency критична: решение по ставке должно приходить до её подтверждения. Triton с TensorRT-оптимизированными моделями держит P99 < 35ms при 2000 req/s на одном A10G.
Ответственный гемблинг: модель риска игрока
Задача — не просто флагировать "подозрительных", а предсказать вероятность развития проблемного поведения в 30-дневном горизонте.
Фичи, которые реально работают (на основе литературы и практики):
- Velocity: изменение суммы ставок week-over-week (нормированное на историю)
- Session patterns: рост session_length при нарастающем losing streak
- Loss chasing index: соотношение ставок после серии проигрышей vs. после серии выигрышей
- Deposit frequency аномалии
- Temporality: сдвиг активности на нетипичные часы
LightGBM с SHAP-объяснениями показывает AUC-ROC 0.81–0.84 на этой задаче. Интерпретируемость здесь обязательна — регулятор может запросить обоснование конкретного ограничения.
Персонализация и рекомендации
Бонусная оптимизация. Multi-armed bandit (Thompson Sampling) для A/B-тестирования бонусных офферов в реальном времени. Модель сходится быстрее классического A/B при меньших потерях на exploration.
Game recommendations. Two-tower модель (user tower + game tower) на PyTorch, trained с contrastive loss. Оффлайн-метрики: Recall@20 = 0.67, NDCG@10 = 0.51. Онлайн: +12% session time на A/B-тесте.
Churn prediction. GBM-модель на 90-дневном окне активности, порог подбирается под ROI retention-кампании: обычно precision 0.65–0.70 при recall 0.55–0.60.
Стек
| Задача | Инструменты |
|---|---|
| Graph fraud detection | PyTorch Geometric, Neo4j, GraphSAGE/GAT |
| Behavioral anomaly | Hugging Face Transformers, Isolation Forest (scikit-learn) |
| Realtime features | Apache Flink, Redis, Kafka |
| Model serving | Triton Inference Server, TensorRT |
| Responsible gambling | LightGBM, SHAP |
| Experimentation | MLflow, Weights & Biases |
| Monitoring | evidently.ai, Grafana |
Процесс и сроки
- Аудит данных — event logs, транзакции, KYC-данные. Типичная проблема: события без user_id для неавторизованных сессий, дыры в логах при CDN-outage.
- Feature engineering — агрегации на Flink/Spark, построение графа связей аккаунтов.
- Обучение и валидация — time-based split обязателен (никакого random split на временных данных).
- Shadow mode деплой — модель работает параллельно с правилами без влияния на бизнес, сравниваем решения.
- A/B rollout и мониторинг — PSI на фичах, drift на предсказаниях.
MVP фрод-модели — 8–14 недель. Полная платформа с ответственным гемблингом и персонализацией — 6–12 месяцев.







