Реализация AI-оптимизации A/B-тестов (Multi-Armed Bandit)
Классический A/B тест требует ждать статистической значимости — нередко недели при умеренном трафике, теряя конверсии на неоптимальном варианте. Multi-Armed Bandit адаптируется в реальном времени: автоматически перераспределяет трафик в пользу лучшего варианта пока накапливаются данные.
Thompson Sampling
Байесовский подход: для каждого варианта поддерживаем бета-распределение вероятностей конверсии. На каждый запрос: сэмплируем из распределений → показываем вариант с наибольшим сэмплом → обновляем распределение по результату. Баланс exploration/exploitation встроен математически.
Epsilon-Greedy
Проще в реализации: с вероятностью ε — случайный вариант (exploration), с вероятностью 1-ε — лучший текущий (exploitation). ε снижается со временем (ε-decay).
Contextual Bandit
Расширение: учёт контекста пользователя (устройство, источник трафика, поведение на сайте). LinUCB, NeuralLinear. Каждый пользователь видит оптимальный вариант для его профиля.
Реализация
Python (Vowpal Wabbit, мгновенная производительность) или кастомный. Redis для хранения статистик. Feature flags платформа (Unleash, LaunchDarkly) для управления вариантами.
Мониторинг:
- Cumulative regret (потери от неоптимального выбора)
- Конверсия по вариантам в динамике
- Распределение трафика
Когда MAB лучше классического A/B
Высокочастотные решения (email subject lines, push notifications, UI elements). Когда стоимость ошибки высока. Когда вариантов много (>2).







