Fine-tuning Whisper для доменної розпізнавання мовлення
Базовий Whisper large-v3 показує WER 8–15% на загальній мові. На спеціалізованій лексиці WER вростає до 25–40%. Fine-tuning на доменному датасеті зменшує його до 3–8%.
Коли потрібен fine-tuning
Погане розпізнавання при:
- Рідкої термінології: медичні терміни, юридичні абревіатури
- Регіональний акцент мовлення
- Шумні записи (call-центр, виробництво)
- Code-switching (змішування мов)
Підготовка датасету
Мінімум для покращення: 10–20 годин Оптимально: 50–100 годин
Формат: аудіофайл + текстовий транскрипт пари
Результати за доменом
Доменна fine-tuning значно зменшує WER по медичних, юридичних, фінансових та технічних доменах.
Терміни: розмітка корпусу — 2–3 тижні. Fine-tuning — 1 тиждень. Інтеграція — 3–5 днів.







