Аналіз статистичної значущості результатів A/B-тестів

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми
Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори
Сайти або веб-програми електронної комерції
Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів
Веб-програми для управління бізнес-процесами
CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації
Сайти або веб-програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Пропоновані послуги
Показано 1 з 1 послугУсі 2065 послуг
Аналіз статистичної значущості результатів A/B-тестів
Середня
~2-3 робочих дні
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    874
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851

Аналіз статистичної значущості результатів A/B-тестів

Статистична значущість — це математичний доказ того, що різниця в конверсії між варіантами не випадкова. Без правильного статистичного аналізу можна прийняти помилкове рішення на основі шуму даних.

Ключові концепції

P-value — імовірність спостерігати такий або більший ефект за умови, що немає реальної різниці (нульова гіпотеза вірна). Коли p < 0.05, результат вважається значущим.

Confidence Level — 1 - alpha. 95% довіра = готовий помилитися в 5% випадків.

Statistical Power — імовірність виявити реальний ефект (зазвичай 80%).

MDE (Minimum Detectable Effect) — найменший ефект, який тест може виявити при даному обсязі вибірки.

Z-тест для пропорцій

from scipy.stats import proportions_ztest, chi2_contingency
import numpy as np

def analyze_test(control_n, control_conv, variant_n, variant_conv, alpha=0.05):
    cr_control = control_conv / control_n
    cr_variant = variant_conv / variant_n
    relative_lift = (cr_variant - cr_control) / cr_control * 100

    # Z-тест (застосовується при n > 30)
    counts = np.array([variant_conv, control_conv])
    nobs = np.array([variant_n, control_n])
    z_stat, p_value = proportions_ztest(counts, nobs, alternative='two-sided')

    # Довірчий інтервал для різниці
    se = np.sqrt(
        cr_control * (1 - cr_control) / control_n +
        cr_variant * (1 - cr_variant) / variant_n
    )
    diff = cr_variant - cr_control
    z_crit = 1.96  # для 95% CI
    ci_low = diff - z_crit * se
    ci_high = diff + z_crit * se

    print(f"Control: {cr_control:.3%} ({control_conv}/{control_n})")
    print(f"Variant: {cr_variant:.3%} ({variant_conv}/{variant_n})")
    print(f"Lift: {relative_lift:+.1f}%")
    print(f"95% CI: [{ci_low:.3%}, {ci_high:.3%}]")
    print(f"P-value: {p_value:.4f}")
    print(f"Significant: {'YES ✓' if p_value < alpha else 'NO ✗'}")

    return p_value < alpha

analyze_test(
    control_n=3842, control_conv=115,
    variant_n=3891, variant_conv=148
)

Chi-Square тест (альтернатива Z-тесту)

from scipy.stats import chi2_contingency

contingency = np.array([
    [control_conv, control_n - control_conv],     # Control: converts, not converts
    [variant_conv, variant_n - variant_conv]      # Variant: converts, not converts
])

chi2, p_value, dof, expected = chi2_contingency(contingency)
print(f"Chi2: {chi2:.4f}, p={p_value:.4f}")

Chi-square та Z-тест дають ідентичні результати для двох груп.

Помилки при інтерпретації

Peaking (Peeking problem) — зупиніть тест, як тільки p < 0.05, не дочекавшись необхідного обсягу вибірки. Завищує помилку типу I до 26% при alpha=0.05.

# Неправильно: перевіряйте щодня і зупиняйте при p < 0.05
# Правильно: розрахуйте розмір вибірки спочатку, зупиніться тільки після її досягнення

def required_sample_size(baseline_cr, mde, alpha=0.05, power=0.8):
    from scipy import stats
    import math
    p1, p2 = baseline_cr, baseline_cr * (1 + mde)
    p_avg = (p1 + p2) / 2
    z_a = stats.norm.ppf(1 - alpha/2)
    z_b = stats.norm.ppf(power)
    n = ((z_a * math.sqrt(2 * p_avg * (1-p_avg)) +
           z_b * math.sqrt(p1*(1-p1) + p2*(1-p2))) / (p2-p1)) ** 2
    return math.ceil(n)

n = required_sample_size(baseline_cr=0.03, mde=0.15)
print(f"Run test until {n} users per variant reached")

Multiple comparisons — тестуйте багато варіантів і виберіть найкращий без коригування:

# Bonferroni correction для множинних порівнянь
n_comparisons = 4  # 4 варіанти vs контроль
corrected_alpha = 0.05 / n_comparisons  # = 0.0125

# Або FDR (Benjamini-Hochberg)
from statsmodels.stats.multitest import multipletests
p_values = [0.03, 0.07, 0.01, 0.04]
reject, corrected_p, _, _ = multipletests(p_values, alpha=0.05, method='fdr_bh')

Bayesian A/B аналіз

Альтернатива частотистському підходу — імовірність того, що варіант краще:

import numpy as np

def bayesian_ab_test(control_conv, control_n, variant_conv, variant_n, samples=100000):
    """Posterior distribution через Beta distribution"""
    # Prior: Beta(1,1) = рівномірний розподіл
    control_posterior = np.random.beta(
        control_conv + 1,
        control_n - control_conv + 1,
        samples
    )
    variant_posterior = np.random.beta(
        variant_conv + 1,
        variant_n - variant_conv + 1,
        samples
    )

    prob_variant_better = (variant_posterior > control_posterior).mean()
    expected_lift = (variant_posterior - control_posterior).mean() / control_posterior.mean() * 100

    print(f"Probability variant is better: {prob_variant_better:.1%}")
    print(f"Expected lift: {expected_lift:+.1f}%")
    print(f"Credible interval: [{np.percentile(variant_posterior - control_posterior, 2.5):.3%}, "
          f"{np.percentile(variant_posterior - control_posterior, 97.5):.3%}]")

bayesian_ab_test(115, 3842, 148, 3891)

Практичний гід по рішенням

Ситуація Рішення
p < 0.05, lift > 0 Запустити варіант
p > 0.05, низький трафік Продовжити тест
p > 0.05, досягли обсягу Немає значущого ефекту, закрити тест
p < 0.05, lift від'ємний Залишити контроль
Один сегмент значущий, інший ні Аналіз взаємодій, сегментоване розгортання

Час виконання

Налаштування процесу аналізу значущості з автоматичним розрахунком обсягу вибірки та вибором Bayesian/Frequentist — 1–2 робочих дні.