Як визначити оптимальну кількість класів у таксономії?

Оптимальна кількість класів залежить від бізнес-логіки та обсягу даних. Рекомендуємо дворівневу ієрархію: перший рівень — 5–15 категорій для високої повноти, другий — деталізація для точної маршрутизації. Межі між класами мають бути чіткими, щоб мінімізувати конфлікти.

Який метод класифікації кращий: BERT чи LLM?

Для великих розмічених даних (500+ прикладів на клас) BERT fine-tuning дає 90–95% accuracy і є найпродуктивнішим рішенням. LLM (GPT-4o-mini) з zero-shot підходить для нових категорій без навчальної вибірки, але дорожчий і повільніший. Часто використовуємо гібрид: BERT для основних класів, LLM для рідкісних.

Що таке дрейф даних і як його відстежувати?

Дрейф даних — зміна розподілу тематик з часом (через акції, сезони, інциденти). Відстежуємо його за допомогою chi-square тесту: порівнюємо поточний розподіл з історичним і при значному відхиленні надсилаємо алерт. Після цього переоцінюємо актуальність моделі та за потреби донавчаємо.

Як обробляти звернення, що містять кілька тем?

Використовуємо multilabel класифікацію з sigmoid-активацією та порогом 0.5. Альтернативно розбиваємо текст на речення і класифікуємо кожне окремо. Виділяємо primary (основну) і secondary (вторинну) тему для пріоритезації маршрутизації.

Скільки потрібно розмічених даних для навчання?

Для TF-IDF baseline достатньо 200 прикладів на клас. Для BERT fine-tuning рекомендується від 500 прикладів на клас, хоча з переднавченими моделями (rubert) можна стартувати з 300. Якість розмітки критично важлива — ми завжди проводимо контроль якості: перевіряємо 20% даних вручну.

Як визначити оптимальну кількість класів у таксономії?

Оптимальна кількість класів залежить від бізнес-логіки та обсягу даних. Рекомендуємо дворівневу ієрархію: перший рівень — 5–15 категорій для високої повноти, другий — деталізація для точної маршрутизації. Межі між класами мають бути чіткими, щоб мінімізувати конфлікти.

Який метод класифікації кращий: BERT чи LLM?

Для великих розмічених даних (500+ прикладів на клас) BERT fine-tuning дає 90–95% accuracy і є найпродуктивнішим рішенням. LLM (GPT-4o-mini) з zero-shot підходить для нових категорій без навчальної вибірки, але дорожчий і повільніший. Часто використовуємо гібрид: BERT для основних класів, LLM для рідкісних.

Що таке дрейф даних і як його відстежувати?

Дрейф даних — зміна розподілу тематик з часом (через акції, сезони, інциденти). Відстежуємо його за допомогою chi-square тесту: порівнюємо поточний розподіл з історичним і при значному відхиленні надсилаємо алерт. Після цього переоцінюємо актуальність моделі та за потреби донавчаємо.

Як обробляти звернення, що містять кілька тем?

Використовуємо multilabel класифікацію з sigmoid-активацією та порогом 0.5. Альтернативно розбиваємо текст на речення і класифікуємо кожне окремо. Виділяємо primary (основну) і secondary (вторинну) тему для пріоритезації маршрутизації.

Скільки потрібно розмічених даних для навчання?

Для TF-IDF baseline достатньо 200 прикладів на клас. Для BERT fine-tuning рекомендується від 500 прикладів на клас, хоча з переднавченими моделями (rubert) можна стартувати з 300. Якість розмітки критично важлива — ми завжди проводимо контроль якості: перевіряємо 20% даних вручну.

Автоматична класифікація звернень клієнтів за тематикою

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Автоматична класифікація звернень клієнтів за тематикою

Середній

~3-5 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Ви відкриваєте пошту вранці понеділка — 400 звернень, кожне потребує ручного сортування. Оператори витрачають у середньому 5 хвилин на аналіз, а помилки маршрутизації затягують відповідь на години. Ручна класифікація не масштабується: з ростом бізнесу кількість звернень подвоюється, а штат підтримки — ні. Ми реалізували ML-класифікатор, який за секунди визначає тему і спрямовує звернення потрібному фахівцю. Типова ситуація: компанія з 50 000 звернень на місяць витрачає 4000 годин на рік на ручне сортування. Автоматизація скорочує це на 80%, звільняючи операторів для складних запитів. Наш підхід включає розробку таксономії, навчання моделі та моніторинг дрейфу — все під ключ за 3–10 робочих днів.

Автоматична класифікація звернень клієнтів: таксономія і модель

Перша і найпоширеніша помилка — неправильна ієрархія класів. Занадто мало категорій (наприклад, 3) — всі нестандартні запити падають в «Інше». Занадто багато (500+) — модель не може навчитися, точність падає нижче 70%. Нечіткі межі між класами заплутують і модель, і операторів.

Дворівнева ієрархія довела свою ефективність: перший рівень — 5–15 широких категорій (технічні проблеми, фінансові питання, договори), другий — підкатегорії для точної маршрутизації. Наприклад:

Технічні проблеми
    ├── Проблема з підключенням
    ├── Повільна швидкість
    └── Помилки в особистому кабінеті
Фінансові питання
    ├── Оплата і тарифи
    ├── Повернення коштів
    └── Заборгованість

За даними дослідження Яндекса, дворівнева таксономія знижує помилку класифікації на 30% порівняно з плоскою структурою. Ми завжди починаємо проект з аудиту поточних звернень і узгодження таксономії з бізнес-замовником.

Чому BERT fine-tuning дає 95% accuracy, а TF-IDF — тільки 85%?

Метод	Accuracy	Потребує даних	Швидкість інференсу	Вартість впровадження
TF-IDF + Logistic Regression	82–88%	200 прикладів/клас	<1 мс	Низька
BERT fine-tuning (rubert)	90–95%	500+ прикладів/клас	5–10 мс	Середня
LLM zero-shot (GPT-4o-mini)	85–92%	0 прикладів	200–500 мс	Висока

TF-IDF підходить для швидкого прототипу: навчається за хвилини, інтерпретований. BERT fine-tuning — основний метод: дає +8–12% accuracy за умови якісної розмітки. BERT кращий за TF-IDF на 10–15 процентних пунктів, але потребує більше даних. LLM використовуємо для нових категорій, де немає історичних даних — без донавчання, тільки промпт з описом класів.

Як обробляти звернення з кількома темами?

«У мене не працює підключення, і я хочу змінити тариф» — два класи одночасно. Ми застосовуємо три стратегії:

Multilabel класифікація: sigmoid + поріг 0.5 — модель видає всі застосовні мітки.
Розбивка на речення: кожне речення класифікується окремо, результат агрегується.
Primary + Secondary: вибираємо головну тему (наприклад, «проблема з підключенням») і додаткову («зміна тарифу»).

В одному з проектів 30% звернень містили кілька тем. Використавши multilabel з порогом 0.4, ми підвищили точність маршрутизації на 22%.

Що робити з дрейфом даних?

Розподіл тематик змінюється: акції збільшують частку фінансових питань, сезонні інциденти — технічних. Наприклад, після запуску масштабної акції частка фінансових питань зросла з 20% до 45% за тиждень — наш моніторинг зафіксував дрейф і автоматично запустив донавчання моделі.

Ми налаштовуємо моніторинг з chi-square тестом: порівнюємо ковзний розподіл за тиждень з історичним. При значному відхиленні (p < 0.05) надсилається алерт, і ми переоцінюємо модель — додаємо нові класи або донавчаємо існуючу.

Метрика	Норма	Алерт
Частка класу «Технічні проблеми»	30–35%	>40% або <25%
Частка класу «Інше»	<5%	>10%
Точність моделі	>90%	<85%

Процес роботи

Аналітика таксономії: аудит 500+ звернень, формування ієрархії класів.
Збір і контроль якості даних: розмітка 200–500 прикладів на клас, ручна вивірка 20%.
Розробка моделі: baseline (TF-IDF), fine-tuning (BERT), опціонально LLM для рідкісних тем.
Тестування: оцінка accuracy, precision, recall, latency p99 на відкладеній вибірці.
Деплой: REST API на FastAPI, контейнеризація Docker, моніторинг Prometheus.
Документація: опис таксономії, маршрутизації, інструкція для операторів.
Гарантія: підтримка моделі протягом 6 місяців, оновлення при дрейфі.

Строки і вартість

Строки: від 3 до 10 робочих днів залежно від складності таксономії та обсягу даних. Вартість розраховується індивідуально — зв'яжіться з нами для оцінки вашого проекту. Замовте впровадження класифікатора — отримайте консультацію інженера безкоштовно.

Наша команда має 5+ років досвіду в NLP та понад 50 успішних проектів з автоматизації обробки звернень. Ми гарантуємо якість кожного етапу — від розмітки до моніторингу.

Цей класифікатор скорочує час обробки на 80% — економія тисяч годин операторів на рік. Зв'яжіться з нами, щоб обговорити ваш проект.

NLP розробка: чому accuracy не підходить для рідкісних класів?

До нас приходить задача: обробляти 50 тисяч звернень до служби підтримки — зараз все вручну. Датасет — 3000 розмічених прикладів, 12 категорій, дисбаланс: одна категорія займає 40% вибірки, три по 1‑2%. Baseline accuracy — 78%. Звучить непогано, поки не дивишся на recall по рідкісних класах: 0.31, 0.44, 0.28. Саме ці класи — скарги та загрози відтоку — найважливіші для бізнесу.

Це типовий проект NLP розробки. Проблема не в алгоритмі, а в тому, що accuracy — не та метрика. Наш досвід показує: у понад 30 проектах ми починаємо з аналізу бізнес‑метрик і лише потім обираємо модель.

Чому accuracy — не та метрика для рідкісних класів?

Accuracy ігнорує дисбаланс. Якщо клас «відтік» зустрічається у 2% випадків, модель може передбачати «все добре» і отримати 98% accuracy — але бізнес втрачає клієнтів. Рішення: F1 macro (усереднення за всіма класами) або weighted F1. Для NER — strict entity F1 (лише точні збіги). Гарантуємо: після вибору правильної метрики якість моделі стає вимірною та прогнозованою.

Класифікація тексту: від BERT до дистиляції

BERT-подібні моделі — стандарт для класифікації. ruBERT-base або ruBERT-large від DeepPavlov для російської мови. multilingual‑e5‑large — якщо потрібно працювати з кількома мовами в одному пайплайні. XLM‑RoBERTa‑large — сильний multilingual backbone.

Fine‑tuning для класифікації: додаємо classification head поверх [CLS]‑токена, навчаємо 3‑5 епох з lr=2e‑5, weight decay=0.01. При дисбалансі — weighted CrossEntropyLoss або focal loss з gamma=2.0. Пишіть — покажемо code snippet.

Кейс з дисбалансом. Датасет — 3000 прикладів, дисбаланс 1:20. Рішення: class_weight через sklearn + CrossEntropyLoss. Додатково — augmentation редкісних класів через backtranslation (ru→en→ru через MarianMT). Recall по рідкісних класах виріс з 0.31 до 0.67 при незначному падінні accuracy (76%→74%). Повна NLP розробка під ключ зайняла 3 тижні.

Дистиляція для production. BERT‑large дає F1 0.89, але inference на CPU — 180ms. Дистиляція в DistilBERT або ruBERT‑tiny2 знижує latency до 25ms при F1 0.84. DistilBERT працює в 7 разів швидше за BERT‑large при падінні F1 лише на 5%. Експорт в ONNX Runtime з int8 quantization дає додатковий 1.5‑2x. Оцінимо проект — розрахуємо економію на інфраструктурі.

Модель	F1 macro	Latency (CPU)	Розмір
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

Як вибрати модель класифікації під ваш датасет?

Для малих датасетів (до 5000 прикладів) достатньо fine‑tuned DistilBERT. Якщо потрібна багатомовність — XLM‑RoBERTa. При жорстких обмеженнях latency — дистильована модель з ONNX Runtime. Ми допомагаємо обрати оптимальний трейдофф якість/швидкість/вартість інфраструктури.

NER: розпізнавання іменованих сутностей

NER — вилучення персон, організацій, локацій, дат, сум, номерів документів. Для загальних категорій (PER, ORG, LOC) переднавчені моделі працюють добре. Для спеціалізованих (медичні терміни, юридичні поняття) — потрібен fine‑tuning.

Розмітка даних. Основна вартість NER‑проекту. Для якісної моделі — 500‑2000 розмічених речень на кожен тип сутності. Інструменти: Label Studio (open source) або Prodigy (від творців spaCy). Формат IOB2 — стандарт.

Архітектура. Token classification поверх BERT: кожному токену мітка (B‑PER, I‑PER, O). spaCy 3.x з transformer pipeline — зручний production‑вибір.

Вкладені сутності. Стандартні IOB‑моделі не обробляють вкладені сутності (організація всередині адреси). Для таких задач — span‑based NER: SpanBERT або SpERT. Складніше, але правильно.

Постобробка обов’язкова. Модель передбачає токени — потрібні нормалізовані сутності. Дата — dateparser. Суми — regex + валідація. Імена — дедуплікація через rapidfuzz. Входить у нашу стандартну поставку.

Sentiment Analysis та opinion mining

Бінарна класифікація positive/negative працює з BERT з коробки. Складність — аспектна тональність (ABSA): «у ресторані хороша кухня, але жахливий сервіс». Для ABSA: aspect extraction (NER) + sentiment за кожним аспектом. Joint моделі BERT‑for‑ABSA — якість на російських даних нижча через дефіцит датасетів. RuSentiment, SentiRuEval — основні ресурси.

Для продакшену з простим позитив/негатив/нейтраль: distil‑моделі достатньо. Три класи, balanced датасет, 2000+ прикладів — F1 macro 0.82‑0.87 за 1‑2 дні.

Сумарізація тексту

Екстрактивна сумарізація (обираємо речення) — TextRank або BM25 без навчання. Швидко, не галюцинує. Добре для довгих документів.

Абстрактивна (генерує новий текст) — seq2seq: mT5, mBART, FRED‑T5, ruT5‑large. Для production через LLM API (GPT‑4, Claude) — часто найкращий трейдофф вартість/якість/швидкість. Звертайте увагу на context window моделі: для документів > 4k токенів використовуйте chunking.

Ембеддинги: векторні представлення тексту

Ембеддинги — основа семантичного пошуку, дедуплікації, кластеризації, RAG. Якість критично впливає на downstream задачі.

Моделі. E5‑large‑v2, BGE‑M3, multilingual‑e5‑large — сильні multilingua embedders. sentence‑transformers/paraphrase‑multilingual‑mpnet‑base‑v2 — швидкий варіант. Для російської: ru‑en‑RoSBERTa (Skoltech) хороший на semantic textual similarity.

Як оцінити якість ембеддингів? MTEB benchmark — стандарт. Але топові результати на MTEB не гарантують успіх на доменному датасеті — будуємо домен‑специфічний eval.

Fine‑tuning ембеддингів. Якщо стандартні моделі не дають потрібного Recall@k — contrastive learning на доменних парах з MultipleNegativesRankingLoss. 500‑2000 пар, 1‑3 епохи — 5‑15% приріст Recall@k.

Розмірність та зберігання. E5‑large: 1024 dim, float32 — 4KB на вектор. При 10M документів — 40GB. INT8 quantization знижує до 10GB. FAISS IVF_PQ — ще компактніше, але з втратами. Входить у наші рекомендації по деплою.

Вилучення інформації

Структуроване вилучення — одна з частих задач. Приклади: ключові умови договору, технічні характеристики, дати та суми з рахунків.

Regex + rule-based. Для ІПН, ЄДРПОУ, сум, дат — надійніше нейромережі. Не потребує даних.
NER + постобробка. Для варіативних форматів.
LLM з structured output. GPT‑4 / Claude з JSON schema — для складних документів. Вартість: залежить від обсягу документів. Для 10k+ документів/день — рахуємо економіку.

Гарантуємо гібрид: regex/NER для типових полів + LLM для edge cases. Сертифікат довіри: 5 років на ринку, >30 проектів.

Етапи роботи

Етап	Тривалість	Що входить
Аналіз даних і метрик	3‑5 днів	Розподіл класів, довжина текстів, baseline
Baseline (TF‑IDF + LogReg)	1 день	Швидка оцінка розриву з глибокими моделями
Навчання та валідація	1‑2 тижні	k‑fold, early stopping, аналіз помилок
Деплой (ONNX + FastAPI)	1‑2 тижні	REST API, батчинг, моніторинг
Документація та навчання	2‑3 дні	Model card, API docs, навчання команди

Прототип на існуючих даних — 1‑3 тижні. Production‑система з CI/CD — 1.5‑2.5 місяця. Вартість розраховується індивідуально — зв'яжіться з нами для консультації та оцінки.

Що входить у роботу

Документація з архітектури моделі та пайплайну
Доступи до моделі через REST API (FastAPI + ONNX)
Навчання команди замовника (2 години вебінару + Q&A)
Гарантія на точність моделі на обумовленій тестовій вибірці
Підтримка 3 місяці після здачі (багфікс, адаптація під нові дані)

Наш досвід

Понад 5 років у NLP, 30+ проектів від класифікації до RAG‑систем. Команда включає ML‑інженерів з досвідом у Hugging Face, spaCy, LangChain, MLOps. Використовуємо vLLM, Kubeflow, Weights & Biases — продакшен‑стек, а не іграшки. Замовте консультацію — оцінимо проект за 2 дні.