Навчання моделі Speech-to-Text (Whisper Fine-Tuning)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Навчання моделі Speech-to-Text (Whisper Fine-Tuning)
Середній
~5 днів
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1288
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1198
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    902
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1123
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    590
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    860

Fine-tuning Whisper для доменної розпізнавання мовлення

Базовий Whisper large-v3 показує WER 8–15% на загальній мові. На спеціалізованій лексиці WER вростає до 25–40%. Fine-tuning на доменному датасеті зменшує його до 3–8%.

Коли потрібен fine-tuning

Погане розпізнавання при:

  • Рідкої термінології: медичні терміни, юридичні абревіатури
  • Регіональний акцент мовлення
  • Шумні записи (call-центр, виробництво)
  • Code-switching (змішування мов)

Підготовка датасету

Мінімум для покращення: 10–20 годин Оптимально: 50–100 годин

Формат: аудіофайл + текстовий транскрипт пари

Результати за доменом

Доменна fine-tuning значно зменшує WER по медичних, юридичних, фінансових та технічних доменах.

Терміни: розмітка корпусу — 2–3 тижні. Fine-tuning — 1 тиждень. Інтеграція — 3–5 днів.