Какой минимальный объём аудио нужен для fine-tuning Whisper?

Для заметного улучшения WER достаточно 10–20 часов размеченного аудио. Оптимальный объём — 50–100 часов. При меньших данных рекомендуется использовать LoRA или предобученные чекпоинты.

Сколько времени занимает fine-tuning Whisper?

Разметка 30-часового корпуса занимает 2–3 недели. Сам fine-tuning с подбором гиперпараметров — около недели на GPU с 24 ГБ VRAM. Интеграция в продакшн-пайплайн — ещё 3–5 дней.

Какие домены вы обрабатывали? Есть ли примеры снижения WER?

Мы дообучали Whisper для медицинских диктовок (WER с 31% до 6.2%), юридических договоров (с 24% до 4.8%), финансовых колл-центров (с 18% до 5.1%) и технической поддержки (с 22% до 7.3%). Подробности в таблице.

Используете ли вы LoRA для экономии памяти?

Да, при ограничениях по VRAM (<24 ГБ) применяем PEFT/LoRA с рангами 32. Это позволяет обучить всего 1% параметров модели, снижая требования к памяти без значительной потери качества.

Какие гарантии вы даёте на результат fine-tuning?

Гарантируем снижение WER минимум на 50% относительно базовой модели. Проводим А/Б-тестирование на вашем тестовом сете. При недостижении целевых метрик — дорабатываем бесплатно.

Какой минимальный объём аудио нужен для fine-tuning Whisper?

Для заметного улучшения WER достаточно 10–20 часов размеченного аудио. Оптимальный объём — 50–100 часов. При меньших данных рекомендуется использовать LoRA или предобученные чекпоинты.

Сколько времени занимает fine-tuning Whisper?

Разметка 30-часового корпуса занимает 2–3 недели. Сам fine-tuning с подбором гиперпараметров — около недели на GPU с 24 ГБ VRAM. Интеграция в продакшн-пайплайн — ещё 3–5 дней.

Какие домены вы обрабатывали? Есть ли примеры снижения WER?

Мы дообучали Whisper для медицинских диктовок (WER с 31% до 6.2%), юридических договоров (с 24% до 4.8%), финансовых колл-центров (с 18% до 5.1%) и технической поддержки (с 22% до 7.3%). Подробности в таблице.

Используете ли вы LoRA для экономии памяти?

Да, при ограничениях по VRAM (<24 ГБ) применяем PEFT/LoRA с рангами 32. Это позволяет обучить всего 1% параметров модели, снижая требования к памяти без значительной потери качества.

Какие гарантии вы даёте на результат fine-tuning?

Гарантируем снижение WER минимум на 50% относительно базовой модели. Проводим А/Б-тестирование на вашем тестовом сете. При недостижении целевых метрик — дорабатываем бесплатно.

Fine-tuning Whisper для доменной речи: обучение Speech-to-Text

Q: Какие гарантии вы даёте на результат fine-tuning?

Гарантируем снижение WER минимум на 50% относительно базовой модели. Проводим А/Б-тестирование на вашем тестовом сете. При недостижении целевых метрик — дорабатываем бесплатно.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Fine-tuning Whisper для доменной речи: обучение Speech-to-Text

Средний

~5 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1361
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1189
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Fine-tuning Whisper для доменной распознавания речи

Базовый Whisper large-v3 показывает WER 8–15% на общей речи. На узкоспециализированной лексике (медицина, юриспруденция, финансы, технический жаргон) WER вырастает до 25–40%. Fine-tuning на доменном датасете снижает его до 3–8%. Мы дообучаем Whisper под ваши задачи — от медицинских диктовок до звонков колл-центра. За годы практики мы выполнили более 20 проектов по распознаванию для российских и зарубежных компаний, и гарантируем снижение WER как минимум вдвое. Свяжитесь с нами для первичной оценки вашего проекта.

Почему fine-tuning Whisper эффективнее облачных API?

Облачные сервисы (Google Speech-to-Text, Azure Speech) предлагают универсальные модели, которые не адаптируются под узкую терминологию. Fine-tuning на ваших данных даёт пятикратное снижение WER по сравнению с такими API. Кроме того, ваши аудиозаписи остаются на вашей инфраструктуре — никаких утечек конфиденциальной информации. Ниже приведено сравнение для медицинских диктовок.

Решение	WER на медицинских диктовках	Улучшение относительно базового Whisper
Google Speech-to-Text	28%	—
Azure Speech	25%	—
Whisper large-v3 (base)	31%	—
Whisper fine-tuned (наши)	6.2%	5x

Когда нужен fine-tuning

Базовый Whisper справляется плохо при:

Терминологии с редкими словами: «гепатоспленомегалия», «форс-мажорные обстоятельства», аббревиатуры типа «КТ», «МРТ», «ДДУ»
Акцентной речи определённого региона
Шумных условиях записи (колл-центр, производство)
Смешанной речи (код-свитчинг: «сделаем deploy в staging»)

Как подготовить доменный датасет для обучения?

Минимальный объём для заметного улучшения WER — 10–20 часов, оптимальный — 50–100 часов. Используйте аугментацию: шум улицы, реверберацию, change pitch. Пример подготовки в Python:

from datasets import Dataset, Audio
import pandas as pd

def prepare_whisper_dataset(
    audio_dir: str,
    transcripts_csv: str,
    target_language: str = "russian"
) -> Dataset:
    """
    transcripts_csv: columns = [audio_file, transcription]
    """
    df = pd.read_csv(transcripts_csv)

    dataset = Dataset.from_dict({
        "audio": [f"{audio_dir}/{f}" for f in df["audio_file"]],
        "sentence": df["transcription"].tolist()
    })

    dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
    return dataset

Препроцессинг с feature extractor Whisper:

from transformers import WhisperFeatureExtractor, WhisperTokenizer

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-large-v3")
tokenizer = WhisperTokenizer.from_pretrained(
    "openai/whisper-large-v3",
    language="Russian",
    task="transcribe"
)

def prepare_dataset(batch):
    audio = batch["audio"]
    batch["input_features"] = feature_extractor(
        audio["array"],
        sampling_rate=audio["sampling_rate"]
    ).input_features[0]
    batch["labels"] = tokenizer(batch["sentence"]).input_ids
    return batch

dataset = dataset.map(prepare_dataset, remove_columns=["audio", "sentence"])

Fine-tuning с Seq2SeqTrainer

from transformers import (
    WhisperForConditionalGeneration,
    Seq2SeqTrainingArguments,
    Seq2SeqTrainer
)
from dataclasses import dataclass
import evaluate
import torch

model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v3")
model.generation_config.language = "russian"
model.generation_config.task = "transcribe"
model.generation_config.forced_decoder_ids = None

training_args = Seq2SeqTrainingArguments(
    output_dir="./whisper-finetuned-ru-medical",
    per_device_train_batch_size=16,
    gradient_accumulation_steps=1,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=4000,
    gradient_checkpointing=True,
    fp16=True,
    evaluation_strategy="steps",
    per_device_eval_batch_size=8,
    predict_with_generate=True,
    generation_max_length=225,
    save_steps=500,
    eval_steps=500,
    logging_steps=25,
    report_to=["tensorboard"],
    load_best_model_at_end=True,
    metric_for_best_model="wer",
    greater_is_better=False,
    push_to_hub=False
)

wer_metric = evaluate.load("wer")

def compute_metrics(pred):
    pred_ids = pred.predictions
    label_ids = pred.label_ids
    label_ids[label_ids == -100] = tokenizer.pad_token_id
    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = tokenizer.batch_decode(label_ids, skip_special_tokens=True)
    wer = 100 * wer_metric.compute(predictions=pred_str, references=label_str)
    return {"wer": wer}

trainer = Seq2SeqTrainer(
    args=training_args,
    model=model,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    tokenizer=feature_extractor
)
trainer.train()

LoRA для экономии памяти

При ограниченных ресурсах (<24 GB VRAM) используем PEFT/LoRA:

from peft import get_peft_model, LoraConfig, TaskType

lora_config = LoraConfig(
    r=32,
    lora_alpha=64,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type=TaskType.SEQ_2_SEQ_LM
)

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()
# trainable params: 15,728,640 || all params: 1,557,741,568 (1.01%)

Результаты по доменам

Домен	Базовый WER	После fine-tuning	Улучшение
Медицинские диктовки	31%	6.2%	в 5 раз
Юридические договоры	24%	4.8%	в 5 раз
Колл-центр (финансы)	18%	5.1%	в 3.5 раза
Технический support	22%	7.3%	в 3 раза

Fine-tuning Whisper даёт улучшение в 3–6 раз по сравнению с базовой моделью. Это лучше, чем использование готовых облачных API, которые не учитывают вашу доменную лексику и политику конфиденциальности.

Инференс с fine-tuned моделью

from transformers import pipeline

asr = pipeline(
    "automatic-speech-recognition",
    model="./whisper-finetuned-ru-medical",
    device=0,
    torch_dtype=torch.float16,
    generate_kwargs={
        "language": "russian",
        "task": "transcribe",
        "num_beams": 5
    }
)

result = asr("patient_recording.wav", chunk_length_s=30, stride_length_s=5)
print(result["text"])

Что входит в работу

Мы предоставляем полный цикл:

Аудит ваших аудиоданных и оценка целевого WER
Разметка и аугментация корпуса (шум, реверберация, speed perturbation)
Fine-tuning базовой модели (Whisper large-v3, openai/whisper-medium или distill-whisper)
Эксперименты с LoRA, квантизацией, архитектурой encoder
Тестирование на отложенной выборке и A/B-сравнение
Экспорт модели в ONNX или TensorRT для инференса
Интеграция в ваш пайплайн (REST API, Docker, batch-обработка)
Документация и обучение вашей команды

Процесс работы

Аналитика — собираем требования, разбираем 1–2 часа вашего аудио, оцениваем сложность.
Проектирование — выбираем базовую модель, стратегию fine-tuning, объём датасета.
Разметка — транскрибируем и валидируем аудиофайлы (с привлечением экспертов домена).
Обучение — запускаем fine-tuning на GPU-кластере с логированием в W&B, оптимизируем гиперпараметры.
Тестирование — замеряем WER на тестовом сете, проводим акустический анализ ошибок.
Деплой — упаковываем модель, поднимаем сервис, передаём доступы.

Сроки и стоимость

Ориентировочные сроки: от 2 недель (для 10-часового корпуса) до 6 недель (для 100+ часов со сложной разметкой). Стоимость рассчитывается индивидуально — зависит от объёма данных, целевого WER и требований к латентности. Получите консультацию по fine-tuning Whisper для вашей задачи — мы проанализируем задачу и подберём оптимальное решение.

Как получить консультацию?

Пишите на почту или в мессенджеры — мы проанализируем вашу задачу и подберём наиболее эффективный подход. Гарантируем конфиденциальность и NDA.

Подробнее о метриках

Помимо WER мы используем Character Error Rate (CER) для оценки точности распознавания символов, а также confidence scores для выявления проблемных фрагментов. При необходимости проводим фонетический анализ.

Radford et al., "Robust Speech Recognition via Large-Scale Weak Supervision", 2022

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.