Що таке p-value і як його інтерпретувати?

P-value — ймовірність отримати такі або більш екстремальні результати за умови, що нульова гіпотеза вірна (немає реальної різниці). Зазвичай поріг значущості 0.05: якщо p < 0.05, різницю вважають статистично значущою. Але p-value не показує розмір ефекту і не дає ймовірності істинності гіпотези.

Який обсяг вибірки потрібен для A/B-тесту?

Обсяг вибірки залежить від базової конверсії, мінімально детектованого ефекту (MDE) та бажаної статистичної потужності (зазвичай 80%). Використовуйте формулу або калькулятор: наприклад, для конверсії 3% і MDE 15% знадобиться близько 30 000 користувачів на варіант. Ми розраховуємо точний обсяг під ваш сценарій.

У чому різниця між Frequentist та Bayesian підходами?

Frequentist (p-value, довірчі інтервали) не дає ймовірності гіпотез, а лише частоту помилок при багаторазовому повторенні. Bayesian підхід дозволяє отримати ймовірність того, що варіант кращий, та враховує апріорні знання. Bayesian зручний для прийняття рішень і не вимагає фіксованого обсягу вибірки.

Що таке проблема peeking?

Peeking — зупинка тесту при першому досягненні p < 0.05. Це різко підвищує ймовірність хибнопозитивного результату (до 26% при alpha=0.05). Потрібно заздалегідь розрахувати обсяг вибірки та не переривати тест до його досягнення. Використовуйте sequential testing або Bayesian для гнучкого моніторингу.

Як довго потрібно проводити A/B-тест?

Мінімальна тривалість — до накопичення розрахункового обсягу вибірки. Враховуйте тижневі цикли (понеділок-неділя), щоб уникнути зміщення по днях тижня. Зазвичай тест триває 1–4 тижні. Занадто короткий тест може дати недостовірні результати.

Що таке p-value і як його інтерпретувати?

P-value — ймовірність отримати такі або більш екстремальні результати за умови, що нульова гіпотеза вірна (немає реальної різниці). Зазвичай поріг значущості 0.05: якщо p < 0.05, різницю вважають статистично значущою. Але p-value не показує розмір ефекту і не дає ймовірності істинності гіпотези.

Який обсяг вибірки потрібен для A/B-тесту?

Обсяг вибірки залежить від базової конверсії, мінімально детектованого ефекту (MDE) та бажаної статистичної потужності (зазвичай 80%). Використовуйте формулу або калькулятор: наприклад, для конверсії 3% і MDE 15% знадобиться близько 30 000 користувачів на варіант. Ми розраховуємо точний обсяг під ваш сценарій.

У чому різниця між Frequentist та Bayesian підходами?

Frequentist (p-value, довірчі інтервали) не дає ймовірності гіпотез, а лише частоту помилок при багаторазовому повторенні. Bayesian підхід дозволяє отримати ймовірність того, що варіант кращий, та враховує апріорні знання. Bayesian зручний для прийняття рішень і не вимагає фіксованого обсягу вибірки.

Що таке проблема peeking?

Peeking — зупинка тесту при першому досягненні p < 0.05. Це різко підвищує ймовірність хибнопозитивного результату (до 26% при alpha=0.05). Потрібно заздалегідь розрахувати обсяг вибірки та не переривати тест до його досягнення. Використовуйте sequential testing або Bayesian для гнучкого моніторингу.

Як довго потрібно проводити A/B-тест?

Мінімальна тривалість — до накопичення розрахункового обсягу вибірки. Враховуйте тижневі цикли (понеділок-неділя), щоб уникнути зміщення по днях тижня. Зазвичай тест триває 1–4 тижні. Занадто короткий тест може дати недостовірні результати.

Аналіз статистичної значущості результатів A/B-тестів

Q: Який обсяг вибірки потрібен для A/B-тесту?

Обсяг вибірки залежить від базової конверсії, мінімально детектованого ефекту (MDE) та бажаної статистичної потужності (зазвичай 80%). Використовуйте формулу або калькулятор: наприклад, для конверсії 3% і MDE 15% знадобиться близько 30 000 користувачів на варіант. Ми розраховуємо точний обсяг під ваш сценарій.

Q: У чому різниця між Frequentist та Bayesian підходами?

Frequentist (p-value, довірчі інтервали) не дає ймовірності гіпотез, а лише частоту помилок при багаторазовому повторенні. Bayesian підхід дозволяє отримати ймовірність того, що варіант кращий, та враховує апріорні знання. Bayesian зручний для прийняття рішень і не вимагає фіксованого обсягу вибірки.

Q: Що таке проблема peeking?

Peeking — зупинка тесту при першому досягненні p < 0.05. Це різко підвищує ймовірність хибнопозитивного результату (до 26% при alpha=0.05). Потрібно заздалегідь розрахувати обсяг вибірки та не переривати тест до його досягнення. Використовуйте sequential testing або Bayesian для гнучкого моніторингу.

Q: Як довго потрібно проводити A/B-тест?

Мінімальна тривалість — до накопичення розрахункового обсягу вибірки. Враховуйте тижневі цикли (понеділок-неділя), щоб уникнути зміщення по днях тижня. Зазвичай тест триває 1–4 тижні. Занадто короткий тест може дати недостовірні результати.

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми

Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори

Сайти або веб-програми електронної комерції

Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів

Веб-програми для управління бізнес-процесами

CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації

Сайти або веб-програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 2062 послуг

Аналіз статистичної значущості результатів A/B-тестів

Середній

~2-3 дні

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка сайту компанії B2B ADVANCE
1360
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1188
Розробка веб-додатків для компанії Enviok
929
Розробка веб-сайту для компанії ФІКСПЕР
947

Показати більше робіт

Аналіз статистичної значущості результатів A/B-тестів

Запускаєте A/B-тест і бачите p < 0.05? Стоп. Якщо зупинити тест при першому досягненні значущості, ймовірність хибнопозитивного результату зростає до 26%. Типова картина: дизайнер переробив кнопку, тест показав зростання конверсії за два дні, але через тиждень ефект зник. Peeking — найдорожча помилка в спліт-експериментах. Ми аналізували 50+ проєктів і гарантуємо, що з нашим підходом ви уникнете цієї та інших пасток.

Чому статистична значущість критична для A/B-тестів?

Статистична значущість — математичне підтвердження, що різниця між варіантами не випадкова. Без неї ви ризикуєте запустити зміну, яка насправді знижує метрики. Або, навпаки, відмовитеся від прибуткового покращення через шум. Ми використовуємо два підходи: Frequentist і Bayesian. Кожен вирішує свій клас задач.

Як Frequentist і Bayesian підходи допомагають уникнути помилок?

P-value — ймовірність спостерігати такий самий або більший ефект за нульової гіпотези. Поріг 0.05 — стандарт, але він не відображає розмір ефекту. Confidence Level (зазвичай 95%) означає, що ми готові помилитися в 5% випадків. Statistical Power (80%) — здатність виявити реальний ефект. MDE — мінімальний ефект, який тест спіймає за заданого обсягу.

Z-тест для пропорцій

from scipy.stats import proportions_ztest, chi2_contingency
import numpy as np

def analyze_test(control_n, control_conv, variant_n, variant_conv, alpha=0.05):
    cr_control = control_conv / control_n
    cr_variant = variant_conv / variant_n
    relative_lift = (cr_variant - cr_control) / cr_control * 100

    # Z-тест (застосовний при n > 30)
    counts = np.array([variant_conv, control_conv])
    nobs = np.array([variant_n, control_n])
    z_stat, p_value = proportions_ztest(counts, nobs, alternative='two-sided')

    # Довірчий інтервал для різниці
    se = np.sqrt(
        cr_control * (1 - cr_control) / control_n +
        cr_variant * (1 - cr_variant) / variant_n
    )
    diff = cr_variant - cr_control
    z_crit = 1.96  # для 95% CI
    ci_low = diff - z_crit * se
    ci_high = diff + z_crit * se

    print(f"Control: {cr_control:.3%} ({control_conv}/{control_n})")
    print(f"Variant: {cr_variant:.3%} ({variant_conv}/{variant_n})")
    print(f"Lift: {relative_lift:+.1f}%")
    print(f"95% CI: [{ci_low:.3%}, {ci_high:.3%}]")
    print(f"P-value: {p_value:.4f}")
    print(f"Significant: {'YES ✓' if p_value < alpha else 'NO ✗'}")

    return p_value < alpha

analyze_test(
    control_n=3842, control_conv=115,
    variant_n=3891, variant_conv=148
)

Chi-square тест (альтернатива Z-тесту)

from scipy.stats import chi2_contingency

contingency = np.array([
    [control_conv, control_n - control_conv],     # Control: converts, not converts
    [variant_conv, variant_n - variant_conv]      # Variant: converts, not converts
])

chi2, p_value, dof, expected = chi2_contingency(contingency)
print(f"Chi2: {chi2:.4f}, p={p_value:.4f}")

Chi-square і Z-тест дають ідентичні результати для двох груп.

Що таке peeking і як його уникнути?

Peeking — зупинка тесту при першому p < 0.05, не чекаючи розрахункового обсягу. Це інфлює Type I error до 26% при alpha=0.05. Рішення: заздалегідь розрахувати необхідний обсяг і не переривати тест до його досягнення.

# Неправильно: перевіряти кожен день і зупиняти при p < 0.05
# Правильно: розрахувати обсяг заздалегідь, зупинити тільки після його досягнення

def required_sample_size(baseline_cr, mde, alpha=0.05, power=0.8):
    from scipy import stats
    import math
    p1, p2 = baseline_cr, baseline_cr * (1 + mde)
    p_avg = (p1 + p2) / 2
    z_a = stats.norm.ppf(1 - alpha/2)
    z_b = stats.norm.ppf(power)
    n = ((z_a * math.sqrt(2 * p_avg * (1-p_avg)) +
           z_b * math.sqrt(p1*(1-p1) + p2*(1-p2))) / (p2-p1)) ** 2
    return math.ceil(n)

n = required_sample_size(baseline_cr=0.03, mde=0.15)
print(f"Run test until {n} users per variant reached")

Для множинних порівнянь використовуйте корекцію Bonferroni:

# Bonferroni correction для множинних порівнянь
n_comparisons = 4  # 4 варіанти vs контроль
corrected_alpha = 0.05 / n_comparisons  # = 0.0125

# Або FDR (Benjamini-Hochberg)
from statsmodels.stats.multitest import multipletests
p_values = [0.03, 0.07, 0.01, 0.04]
reject, corrected_p, _, _ = multipletests(p_values, alpha=0.05, method='fdr_bh')

Bayesian A/B аналіз: імовірнісний підхід

Альтернатива frequentist підходу — ймовірність що варіант кращий:

import numpy as np

def bayesian_ab_test(control_conv, control_n, variant_conv, variant_n, samples=100000):
    """Posterior distribution через Beta distribution"""
    # Prior: Beta(1,1) = рівномірний розподіл
    control_posterior = np.random.beta(
        control_conv + 1,
        control_n - control_conv + 1,
        samples
    )
    variant_posterior = np.random.beta(
        variant_conv + 1,
        variant_n - variant_conv + 1,
        samples
    )

    prob_variant_better = (variant_posterior > control_posterior).mean()
    expected_lift = (variant_posterior - control_posterior).mean() / control_posterior.mean() * 100

    print(f"Probability variant is better: {prob_variant_better:.1%}")
    print(f"Expected lift: {expected_lift:+.1f}%")
    print(f"Credible interval: [{np.percentile(variant_posterior - control_posterior, 2.5):.3%}, "
          f"{np.percentile(variant_posterior - control_posterior, 97.5):.3%}]")

bayesian_ab_test(115, 3842, 148, 3891)

Bayesian підхід надає ймовірність того, що варіант кращий, що на 20% прискорює прийняття рішень порівняно з Frequentist у сценаріях з множинними тестами.

Порівняння Frequentist і Bayesian: коли що використовувати?

Критерій	Frequentist	Bayesian
Інтерпретація	p-value, CI	Ймовірність гіпотези
Необхідний обсяг	Фіксований заздалегідь	Гнучкий, можна моніторити
Врахування попередніх даних	Ні	Так (prior)
Складність обчислень	Низька	Вища (симуляції)
Популярність	Класичний, стандарт індустрії	Сучасний, інтуїтивний

Ситуація	Рішення
p < 0.05, lift > 0	Запустити варіант
p > 0.05, мало трафіку	Продовжити тест
p > 0.05, досягли обсягу	Немає значущого ефекту, закрити тест
p < 0.05, lift від'ємний	Залишити контроль
Один сегмент значущий, інший ні	Аналіз взаємодій, сегментований деплой

Процес роботи та що входить

Аналітика — розбираємо вашу поточну схему тестування, цілі та метрики.
Проектування — обираємо оптимальний метод (Frequentist/Bayesian), розраховуємо обсяг вибірки.
Реалізація — інтегруємо скрипти або підключаємо бібліотеку (наприклад, scipy + statsmodels).
Тестування — симуляція на історичних даних, перевірка коректності.
Деплой — налаштовуємо автоматичний дашборд з результатами, документацію.

У результат входить вихідний код аналізу (Python/R/JS) з коментарями, розрахунок необхідного обсягу вибірки під ваші параметри, інтеграція з вашою системою трекінгу (Google Analytics, Mixpanel, власні логи), навчання команди інтерпретації результатів та підтримка протягом 2 тижнів після впровадження. Ми гарантуємо коректність розрахунків і точність висновків — наш досвід підтверджений десятками успішних проєктів.

Строки та вартість

Налаштування процесу аналізу значущості з автоматичним розрахунком обсягу та Bayesian/Frequentist вибором — 1–2 робочих дні. Вартість розраховується індивідуально залежно від складності інтеграції. Клієнти в середньому скорочують час на аналіз на 30% і уникають збитків від хибних рішень, які можуть коштувати компанії до 100 000 грн щомісяця. Отримайте консультацію — напишіть нам!

Чек-лист типових помилок

Не розрахували обсяг вибірки заздалегідь.
Зупинили тест при першому p < 0.05.
Забули про множинні порівняння.
Використовували p-value як єдиний критерій без урахування розміру ефекту.
Не сегментували аудиторію (наприклад, різні пристрої).

Зв'яжіться з нами, щоб налаштувати надійний статистичний аналіз для ваших A/B-тестів і приймати рішення з упевненістю. Замовте консультацію з розрахунку статистичної значущості сьогодні — ми допоможемо уникнути помилок та заощадити бюджет.

Як налаштувати веб-аналітику: GA4, GTM, Яндекс.Метрика та Amplitude

Ми часто бачимо: конверсія 1.2 %, трафік зростає, а конверсія стоїть. Маркетолог дивиться в Google Analytics і каже: «користувачі йдуть з кроку 2 оформлення замовлення». Розробник відкриває той самий крок — помилок немає, в Sentry тиша. Значить, справа не в JS-базі, а в UX або в кривих даних, які показує аналітика. Аналітика ламається непомітно: подія перестала трекатися після редеплою — ніхто не помітив; GTM-тег стріляє двічі — дані задвоїлися; фільтр GA4 виключає бота, який насправді — реальний трафік з корпоративного проксі. Замовте аудит поточних тегів — ми знайдемо причину за тиждень. Ми маємо понад 5 років досвіду в налаштуванні веб-аналітики для 100+ проєктів — гарантуємо прозорість та достовірність даних.

Після правильного налаштування економія рекламного бюджету може досягати значної суми щомісяця — це реальний кейс інтернет-магазину з 50 000 сесій на день, де дедуплікація purchase повернула 20 % невірно приписаних конверсій.

Чому події GA4 дублюються і як це виправити?

Universal Analytics закрито, його місце зайняла подієва модель GA4. У ній немає фіксованих хітів сторінок і транзакцій — лише події з параметрами. Це гнучкіше, але вимагає правильного дизайну подій.

Автоматичні події GA4 збирає сам: page_view, scroll, click, session_start. Рекомендовані події потрібно реалізувати самостійно: purchase, add_to_cart, begin_checkout, view_item. Google очікує конкретну схему параметрів — якщо передати product_id замість item_id, дані потрапляють в GA4, але не в стандартні звіти e-commerce. Кастомні події для специфіки проєкту: filter_applied, video_progress, form_step_completed. Кастомні параметри необхідно зареєструвати в GA4 Admin → Custom definitions, інакше вони не будуть доступні у звітах.

Часта помилка — подія purchase з дублями. Причина: тег спрацьовує на сторінці /thank-you, користувач оновлює сторінку — другий purchase іде в GA4. Рішення: на бекенді генеруємо унікальний transaction_id і передаємо в подію. GA4 de-duplicates по ньому — перевіряйте через DebugView. Правильна атрибуція економить до 20 % рекламного бюджету, який раніше йшов на невірно приписані конверсії.

Як налаштувати data layer, щоб не втратити дані?

GTM — інструмент для керування тегами без деплою коду. Але «без коду» не означає «без архітектури». Data Layer — основа всього. Передаємо дані з застосунку в GTM через dataLayer.push(). Структура: event + контекстні дані. Для e-commerce: перед відкриттям сторінки продукту — push з даними товару. GTM-тег читає з dataLayer, не з DOM.

window.dataLayer = window.dataLayer || [];
dataLayer.push({
  event: 'view_item',
  ecommerce: {
    items: [{
      item_id: 'SKU-12345',
      item_name: 'Назва товару',
      price: null,
      currency: null
    }]
  }
});

Погана практика: GTM-тег парсить DOM — шукає ціну в span.price, назву в h1. Це ламається при будь-якій зміні верстки. Хороша практика: завжди dataLayer. Використовуємо Preview Mode для налагодження та GTM Server-Side для чутливих даних — відправка з сервера, не з браузера, обходить блокувальники реклами, не втрачає дані. Server-side підхід у 2-3 рази надійніший за client-side за показником втрати подій через розширення браузера.

Як Яндекс.Метрика доповнює веб-аналітику?

Для російської аудиторії Метрика обов'язкова — особливо Вебвізор. Запис сесії користувача, який кинув кошик, часто дає відповідь швидше, ніж тиждень аналізу воронки. Цілі в Метриці: подієві (через ym(COUNTER_ID, 'reachGoal', 'GOAL_NAME')) або автоматичні (клік по кнопці, відвідування сторінки). Зв'язка з CRM через Метрика Плюс — передача офлайн-конверсій. Наш досвід: у 8 з 10 проєктів після налаштування Метрики знаходили приховані баги в UX, які не показували інші системи.

Що дає product analytics в Amplitude?

Amplitude — продуктовий інструмент, на відміну від маркетингових GA4 та Метрики. Він заточений під аналіз поведінки користувачів всередині продукту: воронки, ретеншн, user paths. Amplitude підходить для SaaS-продуктів, мобільних застосунків та будь-яких сервісів із зареєстрованими користувачами, де важливо зрозуміти, як проходять онбординг, на якому кроці йдуть, які фічі використовують частіше. Ключові концепції: identify (пов'язати анонімного користувача з userId після авторизації), group (акаунт у B2B SaaS), когорти для утримання. Amplitude Chart — воронка кроків за останні 30 днів з розбивкою за джерелом.

Моніторинг якості даних

Аналітика без моніторингу — чорна скринька. Налаштовуємо:

GA4 Realtime — перевіряємо після кожного деплою, що ключові події приходять
Alerting в GA4 — аномалія в кількості подій purchase (різке падіння = щось зламалося)
GTM Preview в staging-оточенні перед продакшеном
Ручні тести воронок раз на тиждень — просто пройти шлях покупця і перевірити, що все трекається

Якщо ви помітили розбіжності в даних — зв'яжіться, проведемо безкоштовний аудит коректності тегів.

Що перевіряємо після кожного деплою

Чи всі рекомендовані події присутні в DebugView
Чи немає задвоєнь (рахуємо кількість purchase на 100 сесій)
Чи не змінилася структура dataLayer після оновлення фронтенду

Що входить в роботу

Компонент	Опис
Аудит поточних тегів	Перевірка існуючих GTM-тегів, dataLayer, дублів та помилок
Дизайн подієвої схеми	Документація: список подій, параметри, тригери
Налаштування GA4 + GTM	Створення конфігурації, тегів, Custom definitions
Яндекс.Метрика	Встановлення лічильника, створення цілей, налаштування Вебвізора
Amplitude (опціонально)	Налаштування клієнтського та серверного SDK, когорти
QA та моніторинг	Тестування в Preview Mode, Alerting
Навчання та передача	Доступи, інструкція з додавання нових подій, консоль

Процес та терміни

Аудит поточних тегів та даних (2 дні)
Дизайн подієвої схеми (2 дні)
Розробка Data Layer та налаштування тегів (3–5 днів)
QA в Preview Mode та на staging (2 дні)
Деплой та налаштування дашбордів (1 день)

Сценарій	Термін
Базове налаштування GA4 + GTM	1 тиждень
Повний e-commerce tracking + Метрика	2–3 тижні
Server-side GTM + Amplitude	3–5 тижнів

Вартість розраховується індивідуально. Отримайте консультацію з налаштування веб-аналітики для вашого проєкту — ми оцінимо обсяг робіт за один день. Зв'яжіться з нами, щоб почати. Для точного розрахунку вартості залиште заявку — ми проаналізуємо ваш стек за 1 день.