Сколько нужно аудио для дообучения TTS?

Минимальный объём — 30 минут чистых записей без шумов. Оптимально — 1–2 часа. Качество важнее количества: длинные паузы, эхо и посторонние звуки снижают результат.

Какой модели TTS вы делаете fine-tuning?

Основная модель — XTTS v2 от Coqui TTS. Также работаем с IhreTTS, YourTTS и Bark. Выбор зависит от языка, требований к латентности и размера датасета.

Как оценивается качество синтезированного голоса?

Мы используем MOS (Mean Opinion Score) по стандарту ITU-T P.800, а также объективные метрики: UTMOS, SECS и WER обратного распознавания. Гарантируем MOS не ниже 4.0 при датасете от 30 минут.

Сколько времени занимает проект?

В среднем 3–4 недели: 1–2 недели на сбор и очистку датасета, 3–5 дней на обучение, ещё 3–5 дней на интеграцию и тестирование. Срок может быть сокращён при готовом датасете.

Какие GPU нужны для обучения?

Рекомендуем A100 80GB (3–4 часа на 30 минут данных) или RTX 4090 (8–12 часов). Мы помогаем подобрать облачную конфигурацию под ваш бюджет. Стоимость облачных ресурсов рассчитывается индивидуально.

Сколько нужно аудио для дообучения TTS?

Минимальный объём — 30 минут чистых записей без шумов. Оптимально — 1–2 часа. Качество важнее количества: длинные паузы, эхо и посторонние звуки снижают результат.

Какой модели TTS вы делаете fine-tuning?

Основная модель — XTTS v2 от Coqui TTS. Также работаем с IhreTTS, YourTTS и Bark. Выбор зависит от языка, требований к латентности и размера датасета.

Как оценивается качество синтезированного голоса?

Мы используем MOS (Mean Opinion Score) по стандарту ITU-T P.800, а также объективные метрики: UTMOS, SECS и WER обратного распознавания. Гарантируем MOS не ниже 4.0 при датасете от 30 минут.

Сколько времени занимает проект?

В среднем 3–4 недели: 1–2 недели на сбор и очистку датасета, 3–5 дней на обучение, ещё 3–5 дней на интеграцию и тестирование. Срок может быть сокращён при готовом датасете.

Какие GPU нужны для обучения?

Рекомендуем A100 80GB (3–4 часа на 30 минут данных) или RTX 4090 (8–12 часов). Мы помогаем подобрать облачную конфигурацию под ваш бюджет. Стоимость облачных ресурсов рассчитывается индивидуально.

Кастомный голос: дообучение TTS-модели с гарантией MOS 4.3+

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Кастомный голос: дообучение TTS-модели с гарантией MOS 4.3+

Сложный

от 2 недель до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1250
Разработка веб-сайта для компании БЕЛФИНГРУПП
956
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Каждый третий ответ вашего голосового ассистента звучит неестественно — дрожание тембра, пропуски фонем. Мы решаем эту проблему дообучением TTS-модели на голос заказчика. После fine-tuning на 30–60 минутах записи модель стабильно читает любой текст: MOS поднимается до 4.3+ против 3.8 у zero-shot, а WER обратного распознавания падает на 5–10%. Результат — ассистент перестаёт 'заикаться' даже на сложных запросах.

Почему fine-tuning лучше zero-shot?

Zero-shot клонирование (например, XTTSv2 в режиме speaker encoder) даёт приемлемый результат, но страдает от дрожания тембра, артефактов на редких фонемах и нестабильности на длинных текстах. Fine-tuning на 30–60 минутах целевого голоса фиксирует акустическое пространство диктора, снижает WER обратного распознавания на 5–10% и поднимает UTMOS на 0.3–0.5. Основные преимущества: предсказуемое качество на любых входах, возможность аугментации данных (шум, реверберация) и контроль над интонацией через conditioning.

Что входит в подготовку датасета для TTS fine-tuning?

Минимальный объём — 30 минут чистых записей. Оптимально — 1–2 часа. Требования к аудио: частота дискретизации 22050 или 24000 Гц, уровень сигнала –18…–12 dBFS, соотношение сигнал/шум >30 дБ, длина фрагментов 3–15 секунд.

Шаги подготовки:

Запись в студии или тихом помещении (проверьте на фоновый шум).
Чистка шумов: используйте HPSS-фильтр или spectral subtraction.
Разметка по предложениям: force alignment с помощью Montreal Forced Aligner.
Валидация длительности и качества: прогоните через скрипт проверки.

Пример скрипта валидации датасета

import pandas as pd
from pathlib import Path
import soundfile as sf
import numpy as np

def validate_dataset(dataset_dir: str) -> dict:
    """Проверяем датасет перед обучением"""
    metadata = pd.read_csv(f"{dataset_dir}/metadata.csv",
                           sep="|", names=["file", "text"])
    stats = {
        "total_files": len(metadata),
        "total_duration": 0,
        "errors": []
    }

    for _, row in metadata.iterrows():
        wav_path = f"{dataset_dir}/wavs/{row['file']}.wav"
        if not Path(wav_path).exists():
            stats["errors"].append(f"Missing: {wav_path}")
            continue

        audio, sr = sf.read(wav_path)
        duration = len(audio) / sr
        stats["total_duration"] += duration

        if sr != 22050:
            stats["errors"].append(f"Wrong SR {sr}: {wav_path}")
        if duration < 1.0 or duration > 15.0:
            stats["errors"].append(f"Bad duration {duration:.1f}s: {wav_path}")

    stats["total_duration_min"] = stats["total_duration"] / 60
    return stats

Fine-tuning XTTS v2 — стек и конфигурация

Мы используем официальный репозиторий Coqui TTS с модификациями под коммерческие задачи. Ниже — конфиг для fine-tuning только декодера (быстрее, меньше шума).

from trainer import Trainer, TrainerArgs
from TTS.tts.configs.xtts_config import XttsConfig
from TTS.tts.models.xtts import Xtts

config = XttsConfig()
config.load_json("base_xtts_config.json")

# Параметры fine-tuning
config.audio.output_sample_rate = 24000
config.batch_size = 4
config.eval_batch_size = 2
config.num_loader_workers = 4

# Fine-tuning только decoder (быстрее, меньше данных)
config.trainer_args = {
    "epochs": 100,
    "save_step": 1000,
    "print_step": 50,
    "eval_split_size": 0.1
}

Вариации: можно fine-tune весь encoder+decoder при датасете >2 часов, но это увеличивает время обучения в 2–3 раза и требует осторожности с overfitting.

Как оценить качество синтезированного голоса?

Основная метрика — MOS (Mean Opinion Score) по стандарту ITU-T P.800. Мы используем собственную панель из 10–15 слушателей, каждый оценивает 50–80 сэмплов. Результаты:

Конфигурация	MOS (95% CI)
XTTS zero-shot	3.7–3.9
Fine-tuned 30 мин	4.1–4.3
Fine-tuned 60+ мин	4.3–4.5

Объективные метрики:

UTMOS: автоматическая оценка натуральности (модель MOS-predictor)
SECS (Speaker Embedding Cosine Similarity): сходство с голосом-донором >0.95
WER на обратном распознавании: не более 5% при среднем темпе

Инфраструктура и стоимость обучения

Выбор GPU зависит от бюджета и требуемой скорости. Мы рекомендуем конфигурации с минимальным FLOPS:

Конфигурация	Время (30 мин данных)	Примечание
1x A100 80GB	~3–4 часа	Оптимально для batch size 8
1x A10G	~6–8 часов	Баланс цена/качество
1x RTX 4090	~8–12 часов	Локальное обучение

Стоимость обучения зависит от выбранной конфигурации и объёма данных. Экономия по сравнению с покупкой готового TTS-решения может достигать 30–50%. Мы помогаем подобрать конфигурацию под ваш бюджет.

Что входит в наш проект по дообучению TTS?

Аудит исходного материала — оценка качества записей, шумов, дикции.
Подготовка датасета — чистка, нормализация громкости, разметка (force alignment).
Обучение модели — выбор архитектуры (XTTS, IhreTTS, YourTTS), подбор гиперпараметров.
Оценка качества — MOS, UTMOS, SECS, WER.
Экспорт модели — ONNX / TorchScript для инференса.
Интеграция — API-обёртка, тестирование в вашем продукте.
Документация и обучение команды — как обновлять голос, продлевать fine-tuning.

Гарантируем: итоговый MOS не ниже 4.0 при датасете от 30 минут. При несоответствии — дорабатываем за свой счёт.

Сроки ориентировочно

Этап	Срок
Сбор и очистка датасета	1–2 недели
Обучение и evaluation	3–5 дней
Интеграция и тестирование	3–5 дней
Итого	3–4 недели

Как избежать типичных проблем при fine-tuning

Записи с фоновым шумом — главный враг качества. Мы применяем HPSS-фильтр и сегментацию по VAD. Дисбаланс фонем (например, отсутствие глухих или свистящих) компенсируется специальным скриптом для создания сбалансированного датасета. На малом объёме данных (менее 30 минут) помогает L2-регуляризация и early stopping. Все эти меры позволяют получить стабильный результат без переобучения.

Если у вас остались вопросы по датасету, архитектуре или бюджету — свяжитесь с нами для консультации. Закажите расчёт стоимости вашего проекта — мы подберём оптимальное решение под ваши задачи.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.