AI-система аналітики аудиторії для видавців
Видавці накопичують багаті дані щодо поведінки читачів, але використовують лише верхній шар метрик (перегляди, відмови). Глибока аудиторна аналітика з ML перетворює ці дані на actionable інсайти для редакції та комерційної служби.
Сегментація аудиторії
RFM + Behavioral Clustering:
Поведінкова сегментація читачів виходить за межі демографіки:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
def segment_readers(reader_events_df, n_segments=6):
"""
Сегментация читателей по поведенческим признакам.
reader_events_df: события (статьи, время, scroll_depth, shares)
"""
# Агрегация на уровне читателя
reader_features = reader_events_df.groupby('reader_id').agg({
'article_id': 'count', # Frequency
'session_duration': 'mean', # вовлечённость
'scroll_depth_pct': 'mean', # глубина чтения
'days_active': 'nunique', # активные дни
'category': lambda x: x.mode()[0], # любимая категория
'shares': 'sum', # виральность
'direct_visit': 'mean', # лояльность (не трафик из поиска)
'last_visit': lambda x: (pd.Timestamp.now() - pd.to_datetime(x).max()).days
}).reset_index()
reader_features.columns = ['reader_id', 'articles_read', 'avg_session',
'avg_scroll', 'active_days', 'top_category',
'shares', 'direct_ratio', 'recency_days']
# Нормализация
numeric_cols = ['articles_read', 'avg_session', 'avg_scroll',
'active_days', 'shares', 'direct_ratio', 'recency_days']
scaler = StandardScaler()
X = scaler.fit_transform(reader_features[numeric_cols].fillna(0))
# K-Means кластеризация
kmeans = KMeans(n_clusters=n_segments, random_state=42, n_init=10)
reader_features['segment'] = kmeans.fit_predict(X)
return reader_features
Типові сегменти: - Loyalists: приходять безпосередньо, читають щодня, глибокий scroll - Casual browsers: іноді заходять із соцмереж, читають тільки headline - Topic specialists: багато читають по одній категорії (аудиторія для niche newsletters) діляться - Churning users: були активні, припинили
Аналітика контенту
Content Performance Scoring:
Оцінка статті не тільки за переглядами, але за якісними метриками:
| Метрика | Вес | Что измеряет |
|---|---|---|
| Read rate (scroll >70%) | 30% | Удержание внимания |
| Time on page / expected | 25% | Реальное чтение vs. bounce |
| Return rate | 20% | Читатель вернулся через статью |
| Social amplification | 15% | Виральность |
| Subscription assists | 10% | Влияние на конверсию |
Topic Resonance Analysis:
Які теми викликають найбільший відгук у різних сегментів аудиторії: - NLP кластеризація контенту (BERTopic) → тематичні кластери - Матриця «тема × сегмент аудиторії» → editorial insights - Редакція бачить: «Читачі-Loyalists хочуть більше аналітики, Casual – більше listicles»
Прогноз відтоку передплатників
Subscriber Health Score:
Динамічний скоринг кожного передплатника: - зниження частоти читання → жовтий прапор - відписка від email розсилки → червоний прапор - Паттерн: не відкривав листа 3 тижні + не заходив на сайт → P(churn_30d) = 0.7
Win-back campaigns:
При P(churn) > 0.6: - Персональна добірка найкращих статей за період відсутності - Спеціальна пропозиція при закінченні підписки (якщо LTV > cost of offer) - Re-engagement email серія з наростаючими стимулами
Attribution і monetization insights
Content-Subscriber Attribution:
Які статті реально призводять до передплати? - Multi-touch attribution: читач прочитав 8 статей перед підпискою - Markov Chain attribution: кожній статті - заслужена частка «вини» за конверсію - Редакція: інвестувати у створення контенту типу X, тому що він конвертує
Термін розробки: 2–4 місяці для платформи аудиторної аналітики із сегментацією, churn prediction та content scoring.







