Аналіз статистичної значущості результатів A/B-тестів
Статистична значущість — це математичний доказ того, що різниця в конверсії між варіантами не випадкова. Без правильного статистичного аналізу можна прийняти помилкове рішення на основі шуму даних.
Ключові концепції
P-value — імовірність спостерігати такий або більший ефект за умови, що немає реальної різниці (нульова гіпотеза вірна). Коли p < 0.05, результат вважається значущим.
Confidence Level — 1 - alpha. 95% довіра = готовий помилитися в 5% випадків.
Statistical Power — імовірність виявити реальний ефект (зазвичай 80%).
MDE (Minimum Detectable Effect) — найменший ефект, який тест може виявити при даному обсязі вибірки.
Z-тест для пропорцій
from scipy.stats import proportions_ztest, chi2_contingency
import numpy as np
def analyze_test(control_n, control_conv, variant_n, variant_conv, alpha=0.05):
cr_control = control_conv / control_n
cr_variant = variant_conv / variant_n
relative_lift = (cr_variant - cr_control) / cr_control * 100
# Z-тест (застосовується при n > 30)
counts = np.array([variant_conv, control_conv])
nobs = np.array([variant_n, control_n])
z_stat, p_value = proportions_ztest(counts, nobs, alternative='two-sided')
# Довірчий інтервал для різниці
se = np.sqrt(
cr_control * (1 - cr_control) / control_n +
cr_variant * (1 - cr_variant) / variant_n
)
diff = cr_variant - cr_control
z_crit = 1.96 # для 95% CI
ci_low = diff - z_crit * se
ci_high = diff + z_crit * se
print(f"Control: {cr_control:.3%} ({control_conv}/{control_n})")
print(f"Variant: {cr_variant:.3%} ({variant_conv}/{variant_n})")
print(f"Lift: {relative_lift:+.1f}%")
print(f"95% CI: [{ci_low:.3%}, {ci_high:.3%}]")
print(f"P-value: {p_value:.4f}")
print(f"Significant: {'YES ✓' if p_value < alpha else 'NO ✗'}")
return p_value < alpha
analyze_test(
control_n=3842, control_conv=115,
variant_n=3891, variant_conv=148
)
Chi-Square тест (альтернатива Z-тесту)
from scipy.stats import chi2_contingency
contingency = np.array([
[control_conv, control_n - control_conv], # Control: converts, not converts
[variant_conv, variant_n - variant_conv] # Variant: converts, not converts
])
chi2, p_value, dof, expected = chi2_contingency(contingency)
print(f"Chi2: {chi2:.4f}, p={p_value:.4f}")
Chi-square та Z-тест дають ідентичні результати для двох груп.
Помилки при інтерпретації
Peaking (Peeking problem) — зупиніть тест, як тільки p < 0.05, не дочекавшись необхідного обсягу вибірки. Завищує помилку типу I до 26% при alpha=0.05.
# Неправильно: перевіряйте щодня і зупиняйте при p < 0.05
# Правильно: розрахуйте розмір вибірки спочатку, зупиніться тільки після її досягнення
def required_sample_size(baseline_cr, mde, alpha=0.05, power=0.8):
from scipy import stats
import math
p1, p2 = baseline_cr, baseline_cr * (1 + mde)
p_avg = (p1 + p2) / 2
z_a = stats.norm.ppf(1 - alpha/2)
z_b = stats.norm.ppf(power)
n = ((z_a * math.sqrt(2 * p_avg * (1-p_avg)) +
z_b * math.sqrt(p1*(1-p1) + p2*(1-p2))) / (p2-p1)) ** 2
return math.ceil(n)
n = required_sample_size(baseline_cr=0.03, mde=0.15)
print(f"Run test until {n} users per variant reached")
Multiple comparisons — тестуйте багато варіантів і виберіть найкращий без коригування:
# Bonferroni correction для множинних порівнянь
n_comparisons = 4 # 4 варіанти vs контроль
corrected_alpha = 0.05 / n_comparisons # = 0.0125
# Або FDR (Benjamini-Hochberg)
from statsmodels.stats.multitest import multipletests
p_values = [0.03, 0.07, 0.01, 0.04]
reject, corrected_p, _, _ = multipletests(p_values, alpha=0.05, method='fdr_bh')
Bayesian A/B аналіз
Альтернатива частотистському підходу — імовірність того, що варіант краще:
import numpy as np
def bayesian_ab_test(control_conv, control_n, variant_conv, variant_n, samples=100000):
"""Posterior distribution через Beta distribution"""
# Prior: Beta(1,1) = рівномірний розподіл
control_posterior = np.random.beta(
control_conv + 1,
control_n - control_conv + 1,
samples
)
variant_posterior = np.random.beta(
variant_conv + 1,
variant_n - variant_conv + 1,
samples
)
prob_variant_better = (variant_posterior > control_posterior).mean()
expected_lift = (variant_posterior - control_posterior).mean() / control_posterior.mean() * 100
print(f"Probability variant is better: {prob_variant_better:.1%}")
print(f"Expected lift: {expected_lift:+.1f}%")
print(f"Credible interval: [{np.percentile(variant_posterior - control_posterior, 2.5):.3%}, "
f"{np.percentile(variant_posterior - control_posterior, 97.5):.3%}]")
bayesian_ab_test(115, 3842, 148, 3891)
Практичний гід по рішенням
| Ситуація | Рішення |
|---|---|
| p < 0.05, lift > 0 | Запустити варіант |
| p > 0.05, низький трафік | Продовжити тест |
| p > 0.05, досягли обсягу | Немає значущого ефекту, закрити тест |
| p < 0.05, lift від'ємний | Залишити контроль |
| Один сегмент значущий, інший ні | Аналіз взаємодій, сегментоване розгортання |
Час виконання
Налаштування процесу аналізу значущості з автоматичним розрахунком обсягу вибірки та вибором Bayesian/Frequentist — 1–2 робочих дні.







