Який обсяг даних потрібен для навчання рекомендаційної моделі?

Мінімально — 50 000 унікальних пар user-item. Чим більше взаємодій, тим краще узагальнення. Для якісного глибокого навчання (Two-Tower) бажано від 500 000 до декількох мільйонів.

Чому важливий часовий (temporal) поділ вибірки?

Випадковий поділ може «підглянути» в майбутнє: модель навчається на взаємодіях, які відбулися пізніше тестових. Temporal split гарантує, що модель перевіряється на реально майбутніх подіях, даючи чесну оцінку.

Що таке negative sampling і навіщо він потрібен?

Negative sampling — метод генерації негативних прикладів (товарів, які користувач не купив). Без нього модель не навчиться розрізняти релевантні та нерелевантні предмети. Важливо вибрати стратегію: uniform, popularity-based або hard negatives.

Які архітектури ви використовуєте?

Найчастіше — Two-Tower (модель з двома ембендінговими гілками для user і item), матрична факторизація (ALS/BCE) та трансформери (BERT4Rec, SASRec). Вибір залежить від природи даних і вимог до latency.

Скільки часу займає навчання та впровадження?

Від 2 тижнів до 2 місяців залежно від складності. Аналіз даних і baseline — 1-2 тижні, full pipeline з tuning і A/B тестом — 1-1.5 місяця. Вартість розраховується індивідуально.

Який обсяг даних потрібен для навчання рекомендаційної моделі?

Мінімально — 50 000 унікальних пар user-item. Чим більше взаємодій, тим краще узагальнення. Для якісного глибокого навчання (Two-Tower) бажано від 500 000 до декількох мільйонів.

Чому важливий часовий (temporal) поділ вибірки?

Випадковий поділ може «підглянути» в майбутнє: модель навчається на взаємодіях, які відбулися пізніше тестових. Temporal split гарантує, що модель перевіряється на реально майбутніх подіях, даючи чесну оцінку.

Що таке negative sampling і навіщо він потрібен?

Negative sampling — метод генерації негативних прикладів (товарів, які користувач не купив). Без нього модель не навчиться розрізняти релевантні та нерелевантні предмети. Важливо вибрати стратегію: uniform, popularity-based або hard negatives.

Які архітектури ви використовуєте?

Найчастіше — Two-Tower (модель з двома ембендінговими гілками для user і item), матрична факторизація (ALS/BCE) та трансформери (BERT4Rec, SASRec). Вибір залежить від природи даних і вимог до latency.

Скільки часу займає навчання та впровадження?

Від 2 тижнів до 2 місяців залежно від складності. Аналіз даних і baseline — 1-2 тижні, full pipeline з tuning і A/B тестом — 1-1.5 місяця. Вартість розраховується індивідуально.

Навчання рекомендаційних моделей: Two-Tower, ALS, negative sampling

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Навчання рекомендаційних моделей: Two-Tower, ALS, negative sampling

Складний

~1-2 тижні

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Помилка random split — одна з найчастіших причин провалу рекомендаційної системи в продакшні. Ми займаємося навчанням рекомендаційних моделей, які працюють в реальних умовах, а не на перетренованих метриках. Типовий випадок: клієнт з e-commerce використовував випадковий поділ, отримав NDCG@10 = 0.65, але після впровадження модель показувала 0.4. Після переходу на temporal split метрики впали, зате A/B тест дав +5% до виручки. Клієнт зазначив: «Випадковий поділ давав завищені метрики — часовий split виявився єдино чесним». Наш стек: PyTorch, Hugging Face Transformers, Faiss для ANN пошуку, ONNX Runtime для інференсу. Досвід команди — понад 5 років у ML і 50+ впроваджених рекомендаційних систем в e-commerce, медіа та fintech. Використовуємо Weights & Biases для трекінгу експериментів і MLflow для управління моделями. Замовте попередній аналіз даних — ми оцінимо вашу задачу і запропонуємо оптимальне рішення.

Проблеми, які вирішуємо

Неправильна генерація негативних прикладів

Якщо брати uniform sampling з усіх товарів, модель не навчиться відрізняти популярне від релевантного. Ми використовуємо popularity-based та hard negative mining (наприклад, товари, які модель вже помилково ранжує високо). Hard negative sampling покращує Recall@20 в 1.3 рази порівняно з uniform.

Холодний старт для нових користувачів і товарів

Без контентних ознак модель видає нульові передбачення. Ми додаємо side information (категорію, текст опису, зображення) через ембендінги.

Temporal bias

Реальні сценарії — це послідовність дій. Якщо перемішати дані випадково, модель «побачить» майбутнє під час навчання. Temporal split з відкладеними за часом val/test — обов'язкова умова.

Як ми це робимо: розгорнутий кейс

Серед наших проектів — інтернет-магазин з 5M взаємодій і 200K товарів. Ми побудували Two-Tower модель з об'єднанням через HNSW індекс. Пайплайн включав:

передобробку логів: дедуплікація, фільтрація ботів, зважування взаємодій (покупка > перегляд);
negative sampling 4:1 з урахуванням популярності; часовий split: 28 днів на train, 7 на val, 7 на test;
Two-Tower: user tower — шар ембендінгів + Dense(256), item tower — те ж + L2 нормалізація. Loss — Weighted BCE з логарифмом позитивних ваг;
навчання 20 епох з early stopping за NDCG@10, використовуючи AdamW (LR=1e-3). На GPU A100 — 45 хвилин;
деплой через Triton Inference Server з ONNX моделлю. Latency p99 — 12 мс.

Результат: lift за NDCG@10 на 22% відносно ALS-бейзлайну, онлайн A/B тест показав +8% до додавань у кошик.

Чому важливий правильний negative sampling?

Негативні приклади задають межу прийняття рішень. Якщо всі негативні — це випадкові десяткові товари, модель легко їх відрізнить. Але на практиці потрібно розрізняти майже релевантні — наприклад, темний диван vs чорний диван. Hard negative sampling (з top-100 невзаємодіяних) дає більш robust навчання. У нас це реалізовано через кеш з ембендінгами та онлайн-вибірку.

Що дає часовий поділ?

Оцінка моделі на часовому спліті — єдиний спосіб отримати чесні метрики. Випадковий поділ може «зазирнути» в майбутнє, завищуючи результати. NDCG@10 на temporal split корелює з онлайн-результатами A/B тестів: розбіжність <15%.

Порівняння архітектур моделей

Модель	Якість (NDCG@10)	Час навчання (5M)	Інференс latency	Особливості
ALS (матрична факторизація)	0.42	30 хв (CPU)	<1 мс	Простий baseline, не використовує side info
Two-Tower (Dense 256)	0.53	45 хв (A100)	3–12 мс	Гнучка, cold start через ознаки
BERT4Rec (трансформер)	0.58	4 год (A100)	50 мс	Тільки послідовності, немає холодного старту

Порівняно з ALS, Two-Tower дає приріст в 1.2 рази за NDCG@10 при співставному часі інференсу.

Порівняння стратегій negative sampling

Стратегія	Якість (Recall@20)	Швидкість навчання	Складність реалізації
Uniform	0.48	Висока	Низька
Popularity-based	0.55	Середня	Середня
Hard negative (online)	0.61	Низька (через перерахунок ембендінгів)	Висока

На практиці комбінуємо popularity-based та hard negatives: 80% популярних, 20% хард-негативів. Це дає баланс якості та швидкості.

Процес роботи

Аналітика: вивчаємо логи взаємодій, виявляємо вузькі місця (sparsity, cold start, imbalance).
Проектування: вибираємо архітектуру, функцію втрат, стратегію negative sampling.
Реалізація: пишемо pipeline на PyTorch + Hugging Face, інтегруємо з вашою системою логування.
Тестування: offline метрики (NDCG, recall@k) + онлайн A/B тест на 2-4 тижні.
Деплой: контейнеризація, моніторинг (дрейф даних, latency), документація.

Терміни та вартість

Терміни: від 2 тижнів (baseline + доопрацювання) до 2 місяців (full pipeline з кастомною архітектурою). Вартість обговорюється індивідуально після аналізу даних. Наші клієнти відзначають економію на інфраструктурі до 40% і зниження витрат на підтримку до 30% завдяки оптимізації пайплайну.

Що входить в роботу

Підготовлений датасет для повторного навчання
Baseline (ALS або Two-Tower) зі звітом за метриками
Навчена фінальна модель (PyTorch/ONNX)
Документація по відтворенню pipeline
Код пайплайнів (препроцесинг, навчання, інференс)
Методичка по донавчанню на нових даних
Консультація по інструментам NDCG та Temporal Split

Отримайте консультацію спеціаліста — ми обговоримо ваш проект і запропонуємо оптимальне рішення.

Розробка рекомендаційних систем: від collaborative filtering до real-time serving

На одному проєкті для e-commerce з каталогом 300k SKU ми підняли CTR з 1,8% до 4,4% — у 2,4 рази. Перший ривок дала колаборативна фільтрація замість «популярне за останні 7 днів», другий — додавання контентних ознак та re-ranking. Різниця між «показуємо популярне» і «показуємо персоналізоване» — вимірна та суттєва. Нижче — інженерний досвід, який допоміг це зробити, і архітектури, які реально працюють у продакшені.

Collaborative Filtering: матрична факторизація та нейронні підходи

Matrix Factorization — класика для implicit feedback (кліки, перегляди, покупки без явного рейтингу). ALS (Alternating Least Squares) у бібліотеці Implicit обробляє матриці user×item із сотнями мільйонів ненульових значень за хвилини на GPU. Latent factors 64–256, регуляризація λ=0.01–0.1 — стартові параметри. Проблема cold start: для нового користувача або товару немає історії — класичний CF безпорадний, потрібні контентні ознаки або гібрид.

Neural Collaborative Filtering (NCF) замінює скалярний добуток на нейромережу. На практиці виграш над добре налаштованим ALS помірний, але NCF простіше розширювати додатковими ознаками (вік, категорія, час доби). Sequence-aware моделі (SASRec, BERT4Rec) враховують порядок взаємодій — state-of-the-art для сесійних рекомендацій.

Як вибрати архітектуру рекомендаційної системи?

Відповідь залежить від даних, навантаження та вимог до холодного старту. Нижче — три основні підходи з критеріями вибору.

Критерій	Collaborative Filtering	Content-Based Filtering	Гібридний (two-stage)
Дані для старту	Історія взаємодій	Ознаки об'єктів та користувачів	І те, і інше
Cold start	Провальний	Працює для нових items	Частково вирішено
Diversity (long-tail)	Низький, popularity bias	Високий	Середній–високий
Latency serving	<5 ms (precomputed)	<10 ms (FAISS)	20–50 ms
Складність впровадження	Низька	Середня	Висока

Гібридна архітектура на 20–40% ефективніша за чистий CF за покриттям long-tail — перевірено на каталогах від 100k SKU.

Content-Based Filtering: коли історії взаємодій мало

Content-based рекомендує на основі характеристик товарів, а не поведінки інших користувачів — вирішує cold start для нових items. Текстові ембединги через sentence-transformers (multilingual-e5-base, BGE-M3) → пошук схожих через FAISS IndexFlatIP — запит за <5 ms на 100k товарів. Item2Vec (Word2Vec на послідовностях переглядів) дає інтерпретовані «схожі товари» за пару годин навчання.

Структуровані ознаки (категорія, бренд, ціна) подаються через embedding layers або в gradient boosting — CatBoost працює з категоріями без ручного кодування.

Чому гібридні моделі працюють краще?

Production-системи майже завжди дворівневі. Stage 1 (Retrieval) — швидкий відбір 100–500 кандидатів із 300k товарів через ALS або Two-Tower модель з векторним пошуком (FAISS, Qdrant). Stage 2 (Ranking) — важкий ранжувальник на LightGBM або нейромережі з cross-features, часом, пристроєм та контекстом сесії. LightFM — хороша відправна точка для середнього масштабу без важкої інфраструктури. Наша практика показує: перехід від single-stage до two-stage дає приріст точності на 15–25% при зростанні latency всього на 20–30 мс.

Real-Time Serving: архітектура під навантаження

Latency SLA — 50–100 ms при тисячах запитів на секунду. Base-рекомендації precompute (batch job раз на годину) → Redis по user_id → <5 ms. Real-time re-ranking через Kafka для подій (кліки, додавання в кошик) → оновлення контекстних ознак. Feature serving — Redis з TTL (кількість переглядів за 24 години, останній клікнутий item). При навантаженні 10k req/s ставимо Redis Cluster з реплікацією.

A/B тестування — єдиний достовірний спосіб оцінити покращення. Офлайн-метрики корелюють з онлайн не завжди. Kohavi et al., «Online Controlled Experiments at Large Scale» (KDD 2013) — обов'язкове читання для команди. Тест з 5–10% трафіку, моніторинг CTR, конверсії, revenue per session. Одна з наших клієнтських систем після гібридизації збільшила виручку на 18% за місяць A/B.

Терміни розробки рекомендаційної системи

Етапи та типові часові витрати — у таблиці нижче. Вартість розраховується індивідуально під масштаб каталогу та вимоги до latency.

Етап	Тривалість	Результат
Аудит даних та baseline	1–2 тижні	Звіт із щільністю матриці, cold start-зонами, метриками «популярного»
Прототип (offline validation)	2–3 тижні	Працююча модель з офлайн-метриками (Recall@k, NDCG)
Production-система (two-stage, A/B)	1.5–2.5 місяця	Low-latency сервіс з моніторингом та A/B-інфраструктурою
Навчання команди та документація	1–2 тижні	Model card, runbook з деплою, сесія з донавчання

Що входить у розробку під ключ

Аудит даних — щільність матриці user×item (зазвичай <0,1%), розподіл активності, temporal паттерни, cold start статистика.
Baseline — «популярне» як простий поріг, який часто важко перевершити.
Ітеративне покращення — ALS → контентні ознаки → two-stage → sequence-aware. Кожен крок з A/B.
Інфраструктура serving — batch precomputation, Redis, real-time re-ranking, моніторинг у Grafana.
Документація — model card з метриками, інструкція з деплою, опис ознак.
Навчання команди — сесія з інтерпретації результатів та донавчання моделі.
Підтримка — 1 місяць після запуску (фікс інцидентів, доналаштування pipeline).

Ми — команда з 7+ роками досвіду в рекомендаційних системах, реалізували понад 30 проєктів для e-commerce та медіа. Гарантуємо прозоре A/B-тестування та фіксацію покращення метрик.

Хочете оцінити потенціал зростання вашого каталогу? Зв'яжіться з нами для безкоштовного аудиту даних. Замовте розробку рекомендаційної системи — перший прототип протягом двох тижнів.

Приклад конфігу ALS для implicit feedback

from implicit.als import AlternatingLeastSquares

model = AlternatingLeastSquares(
    factors=64,
    regularization=0.05,
    iterations=15,
    use_gpu=True
)
model.fit(user_item_matrix)

Більше про математику рекомендаційних систем — у Wikipedia.