Який мінімальний обсяг аудіо потрібен для fine-tuning Whisper?

Для помітного покращення WER достатньо 10–20 годин розміченого аудіо. Оптимальний обсяг — 50–100 годин. При менших даних рекомендується використовувати LoRA або попередньо навчені чекпоїнти.

Скільки часу займає fine-tuning Whisper?

Розмітка 30-годинного корпусу займає 2–3 тижні. Сам fine-tuning з підбором гіперпараметрів — близько тижня на GPU з 24 ГБ VRAM. Інтеграція в продакшн-пайплайн — ще 3–5 днів.

Які домени ви обробляли? Чи є приклади зниження WER?

Ми дообучували Whisper для медичних диктантів (WER з 31% до 6.2%), юридичних договорів (з 24% до 4.8%), фінансових кол-центрів (з 18% до 5.1%) та технічної підтримки (з 22% до 7.3%). Деталі в таблиці.

Чи використовуєте ви LoRA для економії пам'яті?

Так, при обмеженнях по VRAM (<24 ГБ) застосовуємо PEFT/LoRA з рангами 32. Це дозволяє навчити лише 1% параметрів моделі, знижуючи вимоги до пам'яті без значної втрати якості.

Які гарантії ви даєте на результат fine-tuning?

Гарантуємо зниження WER мінімум на 50% відносно базової моделі. Проводимо А/Б-тестування на вашому тестовому сеті. При недосягненні цільових метрик — доопрацьовуємо безкоштовно.

Який мінімальний обсяг аудіо потрібен для fine-tuning Whisper?

Для помітного покращення WER достатньо 10–20 годин розміченого аудіо. Оптимальний обсяг — 50–100 годин. При менших даних рекомендується використовувати LoRA або попередньо навчені чекпоїнти.

Скільки часу займає fine-tuning Whisper?

Розмітка 30-годинного корпусу займає 2–3 тижні. Сам fine-tuning з підбором гіперпараметрів — близько тижня на GPU з 24 ГБ VRAM. Інтеграція в продакшн-пайплайн — ще 3–5 днів.

Які домени ви обробляли? Чи є приклади зниження WER?

Ми дообучували Whisper для медичних диктантів (WER з 31% до 6.2%), юридичних договорів (з 24% до 4.8%), фінансових кол-центрів (з 18% до 5.1%) та технічної підтримки (з 22% до 7.3%). Деталі в таблиці.

Чи використовуєте ви LoRA для економії пам'яті?

Так, при обмеженнях по VRAM (<24 ГБ) застосовуємо PEFT/LoRA з рангами 32. Це дозволяє навчити лише 1% параметрів моделі, знижуючи вимоги до пам'яті без значної втрати якості.

Які гарантії ви даєте на результат fine-tuning?

Гарантуємо зниження WER мінімум на 50% відносно базової моделі. Проводимо А/Б-тестування на вашому тестовому сеті. При недосягненні цільових метрик — доопрацьовуємо безкоштовно.

Дообучення Whisper для доменного розпізнавання мовлення

Q: Які гарантії ви даєте на результат fine-tuning?

Гарантуємо зниження WER мінімум на 50% відносно базової моделі. Проводимо А/Б-тестування на вашому тестовому сеті. При недосягненні цільових метрик — доопрацьовуємо безкоштовно.

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Дообучення Whisper для доменного розпізнавання мовлення

Середній

~5 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1361
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1189
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Дообучення Whisper для доменного розпізнавання мовлення

Базовий Whisper large-v3 показує WER 8–15% на загальному мовленні. На вузькоспеціалізованій лексиці (медицина, юриспруденція, фінанси, технічний жаргон) WER зростає до 25–40%. Fine-tuning на доменному датасеті знижує його до 3–8%. Наш досвід — 5+ років на ринку NLP, більше 20 успішних проєктів з розпізнавання для українських та закордонних компаній. Ми дообучуємо Whisper під ваші завдання — від медичних диктантів до дзвінків кол-центру — і гарантуємо зниження WER як мінімум вдвічі. Наприклад, дообучена модель перевершує Google Speech-to-Text в 5 разів за WER на медичних диктантах, а економія на хмарних API сягає $2000 на місяць для 1000 годин аудіо. Зв'яжіться з нами для первинної оцінки вашого проєкту.

Чому fine-tuning Whisper ефективніший за хмарні API?

Хмарні сервіси (Google Speech-to-Text, Azure Speech) пропонують універсальні моделі, які не адаптуються під вузьку термінологію. Fine-tuning на ваших даних дає п'ятикратне зниження WER порівняно з такими API. Крім того, ваші аудіозаписи залишаються на вашій інфраструктурі — жодних витоків конфіденційної інформації. Нижче наведено порівняння для медичних диктантів.

Рішення	WER на медичних диктантах	Покращення відносно базового Whisper
Google Speech-to-Text	28%	—
Azure Speech	25%	—
Whisper large-v3 (base)	31%	—
Whisper fine-tuned (наші)	6.2%	5x

Як видно, дообучена модель знижує WER в 5 разів для медичних диктантів, що значно краще за хмарні API. Для юридичних договорів покращення складає 5 разів, для фінансових кол-центрів – 3.5 рази.

Коли потрібен fine-tuning та підготовка даних

Базовий Whisper справляється погано при: термінології з рідкісними словами (гепатоспленомегалія, форс-мажорні обставини, абревіатури типу КТ, МРТ, ДДУ); акцентному мовленні певного регіону; шумних умовах запису (кол-центр, виробництво); змішаному мовленні (код-світчинг: «зробимо deploy в staging»).

Мінімальний обсяг для помітного покращення WER — 10–20 годин, оптимальний — 50–100 годин. Використовуйте аугментацію: шум вулиці, реверберацію, change pitch. Приклад підготовки в Python:

from datasets import Dataset, Audio
import pandas as pd

def prepare_whisper_dataset(
    audio_dir: str,
    transcripts_csv: str,
    target_language: str = "ukrainian"
) -> Dataset:
    """
    transcripts_csv: columns = [audio_file, transcription]
    """
    df = pd.read_csv(transcripts_csv)
    dataset = Dataset.from_dict({
        "audio": [f"{audio_dir}/{f}" for f in df["audio_file"]],
        "sentence": df["transcription"].tolist()
    })
    dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
    return dataset

Препроцесинг з feature extractor Whisper:

from transformers import WhisperFeatureExtractor, WhisperTokenizer

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-large-v3")
tokenizer = WhisperTokenizer.from_pretrained(
    "openai/whisper-large-v3",
    language="Ukrainian",
    task="transcribe"
)

def prepare_dataset(batch):
    audio = batch["audio"]
    batch["input_features"] = feature_extractor(
        audio["array"],
        sampling_rate=audio["sampling_rate"]
    ).input_features[0]
    batch["labels"] = tokenizer(batch["sentence"]).input_ids
    return batch

dataset = dataset.map(prepare_dataset, remove_columns=["audio", "sentence"])

Fine-tuning з Seq2SeqTrainer та LoRA

from transformers import (
    WhisperForConditionalGeneration,
    Seq2SeqTrainingArguments,
    Seq2SeqTrainer
)
from dataclasses import dataclass
import evaluate
import torch

model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v3")
model.generation_config.language = "ukrainian"
model.generation_config.task = "transcribe"
model.generation_config.forced_decoder_ids = None

training_args = Seq2SeqTrainingArguments(
    output_dir="./whisper-finetuned-uk-medical",
    per_device_train_batch_size=16,
    gradient_accumulation_steps=1,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=4000,
    gradient_checkpointing=True,
    fp16=True,
    evaluation_strategy="steps",
    per_device_eval_batch_size=8,
    predict_with_generate=True,
    generation_max_length=225,
    save_steps=500,
    eval_steps=500,
    logging_steps=25,
    report_to=["tensorboard"],
    load_best_model_at_end=True,
    metric_for_best_model="wer",
    greater_is_better=False,
    push_to_hub=False
)

wer_metric = evaluate.load("wer")

def compute_metrics(pred):
    pred_ids = pred.predictions
    label_ids = pred.label_ids
    label_ids[label_ids == -100] = tokenizer.pad_token_id
    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = tokenizer.batch_decode(label_ids, skip_special_tokens=True)
    wer = 100 * wer_metric.compute(predictions=pred_str, references=label_str)
    return {"wer": wer}

trainer = Seq2SeqTrainer(
    args=training_args,
    model=model,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    tokenizer=feature_extractor
)
trainer.train()

При обмежених ресурсах (<24 GB VRAM) використовуємо PEFT/LoRA:

from peft import get_peft_model, LoraConfig, TaskType

lora_config = LoraConfig(
    r=32,
    lora_alpha=64,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type=TaskType.SEQ_2_SEQ_LM
)

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 15,728,640 || all params: 1,557,741,568 (1.01%)

Результати по доменах та інференс

Домен	Базовий WER	Після fine-tuning	Покращення
Медичні диктанти	31%	6.2%	в 5 разів
Юридичні договори	24%	4.8%	в 5 разів
Кол-центр (фінанси)	18%	5.1%	в 3.5 раза
Технічний support	22%	7.3%	в 3 рази

Fine-tuning Whisper дає покращення в 3–6 разів порівняно з базовою моделлю. Це краще, ніж використання готових хмарних API, які не враховують вашу доменну лексику та політику конфіденційності. Наприклад, на медичних диктантах дообучена модель працює в 5 разів краще за Google Speech-to-Text.

from transformers import pipeline

asr = pipeline(
    "automatic-speech-recognition",
    model="./whisper-finetuned-uk-medical",
    device=0,
    torch_dtype=torch.float16,
    generate_kwargs={
        "language": "ukrainian",
        "task": "transcribe",
        "num_beams": 5
    }
)

result = asr("patient_recording.wav", chunk_length_s=30, stride_length_s=5)
print(result["text"])

Що входить в роботу: процес, строки та вартість

Ми надаємо повний цикл. Вартість fine-tuning стартує від $500 за 10 годин даних, а економія на хмарних API при об'ємі 1000 годин аудіо на місяць складає до $2000 на місяць порівняно з Google Speech-to-Text. Процес роботи складається з 6 кроків:

Аналітика — збираємо вимоги, розбираємо 1–2 години вашого аудіо, оцінюємо складність.
Проектування — обираємо базову модель, стратегію fine-tuning, обсяг датасету.
Розмітка — транскрибуємо та валідуємо аудіофайли із залученням експертів домену.
Навчання — запускаємо fine-tuning на GPU-кластері з логуванням в W&B, оптимізуємо гіперпараметри.
Тестування — заміряємо WER на тестовому сеті, проводимо акустичний аналіз помилок.
Деплой — пакуємо модель, підіймаємо сервіс, передаємо доступ.

Орієнтовні строки: від 2 тижнів (для 10-годинного корпусу) до 6 тижнів (для 100+ годин зі складною розміткою). Вартість розраховується індивідуально — залежить від обсягу даних, цільового WER та вимог до латентності. Середня економія на хмарних API складає до 80% при переході на власну fine-tuned модель. Отримайте консультацію з fine-tuning Whisper для вашого завдання — ми проаналізуємо задачу та підберемо оптимальне рішення.

Як отримати консультацію?

Пишіть на пошту або в месенджери — ми проаналізуємо вашу задачу та підберемо найбільш ефективний підхід. Гарантуємо конфіденційність та NDA.

Детальніше про метрики

Окрім WER ми використовуємо Character Error Rate (CER) для оцінки точності розпізнавання символів, а також confidence scores для виявлення проблемних фрагментів. При необхідності проводимо фонетичний аналіз.

Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision", 2022

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.