Реалізація класифікації звернень клієнтів за тематикою
Класифікація звернень — автоматичне визначення теми вхідного запиту клієнта. Вхідний потік листів, чатів, дзвінків (після транскрипції) розподіляється по тематичним категоріям без участі оператора.
Проектування таксономії тематик
Перед навчанням моделі потрібно створити правильну ієрархію. Типові помилки: занадто мало класів (усе попадає в «Інше»), занадто багато (500+ класів погано навчаються), нечіткі межі між класами.
Дворівнева ієрархія працює добре:
Технічні проблеми
├── Проблема з підключенням
├── Повільна швидкість
└── Помилки в особистому кабінеті
Фінансові питання
├── Оплата та тарифи
├── Повернення коштів
└── Заборгованість
Договірні питання
...
Перший рівень: 5–15 категорій — високий recall. Другий рівень: деталізація для маршрутизації до потрібного спеціаліста.
Навчання класифікатора
Етап 1 — збір даних: 200–500 прикладів на клас з архіву звернень з історичними мітками операторів. Важливо: оператори часто мітять неточно → потрібен етап контролю якості розмітки.
Етап 2 — baseline: TF-IDF + Logistic Regression. Швидко навчається, інтерпретовано, добре для початку. Точність на типових завданнях: 82–88%.
Етап 3 — BERT fine-tuning: DeepPavlov/rubert-base-cased. Точність: 90–95% при наявності 500+ прикладів на клас.
Етап 4 — LLM zero/few-shot: GPT-4o-mini з описом класів — для нових категорій без переавання.
Обробка мультитематичних звернень
«У мене не працює підключення і я хочу змінити тариф» — два класи. Стратегії:
- Мультилейбл класифікація (sigmoid + поріг 0.5)
- Розбивка на речення, класифікація кожного
- Вибір primary + secondary класу
Моніторинг та дрейф
Розподіл тематик змінюється при акціях, сезонах, інцидентах. Моніторинг: chi-square тест на відхилення від історичного розподілу. Алерт при значному відхиленні → переоцінка актуальності класифікатора.







