Сколько нужно аудиоданных для обучения TTS-модели?

Для минимально разборчивого голоса достаточно 2 часов чистого аудио (около 1000 записей). Для высокого качества рекомендуем 8–12 часов. XTTS v2 позволяет получить результат уже с 3–6 минутами эталонного голоса при fine-tuning.

Какое оборудование нужно для обучения VITS?

Для обучения VITS на 1000 эпох потребуется GPU с 24 ГБ VRAM (RTX 3090) – время обучения около 12 часов. На A100 (40 ГБ) обучение займёт ~5 часов. Мы также используем облачные кластеры RunPod или Lambda Cloud для ускорения.

Можно ли обучить модель на русском языке?

Да, VITS и XTTS v2 поддерживают русский язык. Мы используем фонемный очиститель и кэш фонем для русского языка (phoneme_cleaners, phoneme_language=ru-ru). Качество синтеза на русском достигает MOS 4.2–4.5.

Что входит в результат работы?

Вы получаете обученную модель (checkpoint), конфигурационные файлы, скрипты инференса, инструкцию по деплою и API для интеграции. При необходимости предоставляем ONNX-экспорт для edge-устройств и поддержку после внедрения.

Как долго длится полный цикл создания голоса?

Полный цикл от записи датасета до production-интеграции занимает 4–6 недель. Подготовка и разметка аудио – 2–4 недели, обучение VITS – 1–2 недели, интеграция и тестирование – около недели.

Сколько нужно аудиоданных для обучения TTS-модели?

Для минимально разборчивого голоса достаточно 2 часов чистого аудио (около 1000 записей). Для высокого качества рекомендуем 8–12 часов. XTTS v2 позволяет получить результат уже с 3–6 минутами эталонного голоса при fine-tuning.

Какое оборудование нужно для обучения VITS?

Для обучения VITS на 1000 эпох потребуется GPU с 24 ГБ VRAM (RTX 3090) – время обучения около 12 часов. На A100 (40 ГБ) обучение займёт ~5 часов. Мы также используем облачные кластеры RunPod или Lambda Cloud для ускорения.

Можно ли обучить модель на русском языке?

Да, VITS и XTTS v2 поддерживают русский язык. Мы используем фонемный очиститель и кэш фонем для русского языка (phoneme_cleaners, phoneme_language=ru-ru). Качество синтеза на русском достигает MOS 4.2–4.5.

Что входит в результат работы?

Вы получаете обученную модель (checkpoint), конфигурационные файлы, скрипты инференса, инструкцию по деплою и API для интеграции. При необходимости предоставляем ONNX-экспорт для edge-устройств и поддержку после внедрения.

Как долго длится полный цикл создания голоса?

Полный цикл от записи датасета до production-интеграции занимает 4–6 недель. Подготовка и разметка аудио – 2–4 недели, обучение VITS – 1–2 недели, интеграция и тестирование – около недели.

Кастомный голос для TTS: обучение на VITS, XTTS, YourTTS

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Кастомный голос для TTS: обучение на VITS, XTTS, YourTTS

Сложный

~5 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1361
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1189
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
930

Показать больше работ

Синтез речи: VITS и XTTS для кастомного голоса

Собственная TTS-модель даёт полный контроль над голосом, языком и стилем — без зависимости от внешних API и recurring costs. Актуально для создания уникального брендового голоса, синтеза на редких языках/диалектах, edge-деплоя без интернета. Мы обучили более 15 моделей для клиентов из ритейла, медиа и голосовых ассистентов — от коротких рекламных джинглов до полноценных диалоговых систем. Гарантируем достижение MOS не ниже 4.0.

Почему стоит обучать собственную TTS-модель?

Готовые облачные TTS (Google, Yandex, Amazon) накладывают ограничения: фиксированный набор голосов, стоимость за каждый запрос, привязка к интернету и задержки. Собственная модель решает эти проблемы: вы получаете эксклюзивный голос, работающий офлайн, с контролем эмоциональной окраски и темпа. Например, один из наших клиентов (агрегатор доставки) сэкономил $3 000 в месяц, перейдя с платного API на свою модель, обученную на 8 часах голоса диктора. — Клиент из ритейла Экономия на API-запросах может достигать $50 000 в год для крупных проектов.

Как выбрать архитектуру TTS?

Модель	Тип	Данные для обучения	Качество MOS	Скорость инференса
VITS	End-to-end (текст→аудио)	2–5 ч	4.2/5	Realtime ×30 на GPU
XTTS v2 (Coqui)	Zero-shot + fine-tune	3–6 мин (few-shot)	4.4/5	Realtime ×10 на GPU
YourTTS	Multilingual VITS	1–3 ч	4.0/5	Realtime ×20
MATCHA-TTS	Flow-matching	2–4 ч	4.3/5	Realtime ×50
StyleTTS2	Style-based	1–2 ч	4.5/5	Realtime ×15

Для большинства задач: XTTS v2 для быстрого запуска с минимумом данных, VITS для полного обучения с чистым датасетом. XTTS v2 при fine-tuning на 6 минутах аудио даёт качество, сравнимое с полным VITS на 10 часах – это подтверждено нашими замерами MOS. Благодаря многолетнему опыту мы подбираем архитектуру под конкретную задачу.

Подготовка датасета

Минимальные требования для качественного результата:

Формат: 22050 Hz, 16-bit, mono WAV
Длина записей: 2–15 секунд каждая
Минимум: 1000 записей (≈2 часа) для разборчивого TTS
Рекомендуется: 3000–5000 записей (≈8–12 часов) для высокого качества
Текстовый скрипт: UTF-8, одна реплика на строку

Структура датасета:

dataset/
├── wavs/
│   ├── speaker_001.wav
│   ├── speaker_002.wav
│   └── ...
├── metadata.csv          # filename|transcription
└── metadata_val.csv      # 10% для валидации

Предобработка и нормализация:

import librosa
import soundfile as sf
import numpy as np
from pathlib import Path

def preprocess_audio_for_tts(
    input_dir: str,
    output_dir: str,
    target_sr: int = 22050
) -> dict:
    stats = {"processed": 0, "skipped": 0, "errors": []}
    Path(output_dir).mkdir(parents=True, exist_ok=True)

    for wav_path in Path(input_dir).glob("*.wav"):
        audio, sr = librosa.load(str(wav_path), sr=target_sr, mono=True)

        # Обрезаем тишину
        audio_trimmed, _ = librosa.effects.trim(audio, top_db=20)

        # Проверяем длину
        duration = len(audio_trimmed) / target_sr
        if duration < 1.5 or duration > 15.0:
            stats["skipped"] += 1
            continue

        # Нормализация амплитуды
        audio_normalized = audio_trimmed / (np.max(np.abs(audio_trimmed)) + 1e-8)
        audio_normalized *= 0.9  # peak -0.9 дБ

        output_path = Path(output_dir) / wav_path.name
        sf.write(str(output_path), audio_normalized, target_sr, subtype="PCM_16")
        stats["processed"] += 1

    return stats

Обучение VITS

Конфигурация config.json для VITS (Coqui TTS):

{
    "model": "vits",
    "run_name": "my_tts_model",
    "epochs": 1000,
    "batch_size": 32,
    "eval_batch_size": 16,
    "num_loader_workers": 4,
    "audio": {
        "sample_rate": 22050,
        "win_length": 1024,
        "hop_length": 256,
        "num_mels": 80,
        "mel_fmin": 0,
        "mel_fmax": null
    },
    "datasets": [{
        "name": "my_dataset",
        "path": "dataset/",
        "meta_file_train": "metadata.csv",
        "meta_file_val": "metadata_val.csv"
    }]
}

Запуск обучения:

from TTS.bin.train_tts import main as train_tts
from TTS.config.shared_configs import BaseDatasetConfig
from TTS.tts.configs.vits_config import VitsConfig
from TTS.tts.datasets import load_tts_samples
from TTS.tts.models.vits import Vits, VitsAudioConfig
from TTS.trainer import Trainer, TrainerArgs

audio_config = VitsAudioConfig(
    sample_rate=22050,
    win_length=1024,
    hop_length=256,
    num_mels=80,
    mel_fmin=0,
    mel_fmax=None
)

config = VitsConfig(
    audio=audio_config,
    run_name="brand_voice_v1",
    batch_size=32,
    eval_batch_size=16,
    epochs=1000,
    text_cleaner="phoneme_cleaners",
    use_phonemes=True,
    phoneme_language="ru-ru",
    phoneme_cache_path="phoneme_cache/",
    output_path="checkpoints/",
    datasets=[BaseDatasetConfig(
        formatter="ljspeech",
        meta_file_train="metadata.csv",
        path="dataset/"
    )]
)

train_samples, eval_samples = load_tts_samples(
    config.datasets,
    eval_split=True,
    eval_split_size=0.1
)

model = Vits(config, ap=None, tokenizer=None, speaker_manager=None)

trainer = Trainer(
    TrainerArgs(),
    config,
    output_path="checkpoints/",
    model=model,
    train_samples=train_samples,
    eval_samples=eval_samples
)
trainer.fit()

XTTS v2 fine-tuning (few-shot)

XTTS v2 поддерживает fine-tuning с 3–6 минутами аудио:

from TTS.demos.xtts_ft_demo.xtts_demo import train_gpt

# Датасет: минимум 100 записей по 2–6 секунд каждая
train_gpt(
    language="ru",
    num_epochs=6,
    batch_size=4,
    grad_acumm=1,
    train_csv="dataset/metadata_train.csv",
    eval_csv="dataset/metadata_eval.csv",
    output_path="xtts_ft_checkpoints/"
)

После fine-tuning инференс с кастомным голосом:

from TTS.api import TTS

tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
tts.tts_to_file(
    text="Добро пожаловать в нашу компанию.",
    speaker_wav="reference_voice.wav",  # 3–10 сек эталонного аудио
    language="ru",
    file_path="output.wav",
    model_path="xtts_ft_checkpoints/best_model.pth"
)

Как мы подходим к обучению TTS-моделей

Наш процесс включает пять этапов:

Аналитика: определяем целевую аудиторию голоса, требования к языку, эмоциям, скорости. Подбираем архитектуру (VITS, XTTS, YourTTS) под задачу.
Сбор и подготовка датасета: запись диктора в студии или очистка существующих записей. Удаляем шумы, тишину, нормализуем. Размечаем тексты.
Обучение модели: запускаем на GPU-кластере, мониторим метрики (train/val loss, KL loss, grad_norm). Используем раннюю остановку и чекпойнты.
Оценка качества: прослушиваем синтез через каждые 100 эпох, сравниваем с эталоном. Добиваемся MOS не ниже 4.0.
Деплой и интеграция: конвертируем в ONNX для edge или разворачиваем как gRPC/REST API. Предоставляем документацию и поддержку.

Мониторинг метрик обучения

Ключевые метрики в tensorboard: - loss/train_loss: должен монотонно убывать - loss/val_loss: параллельно train, без расхождения - loss/kl_loss: KL-дивергенция латентного пространства - loss/disc_loss: дискриминатор (GAN-компонент) - grad_norm: должен быть < 10, иначе взрыв градиентов

Инфраструктура обучения

GPU	Время обучения (1000 эпох, VITS)	VRAM
RTX 3090 (24 GB)	~12 часов	18 GB
A100 (40 GB)	~5 часов	22 GB
2× A10G	~3 часа	2×24 GB
CPU (нет GPU)	Не рекомендуется	—

Облачные варианты: RunPod (~~$1.5/ч для A100), Lambda Cloud (~~$1.1/ч), Vast.ai (~$0.5–0.8/ч для A100).

Post-training: деплой модели

# ONNX экспорт для edge-деплоя
from TTS.utils.synthesizer import Synthesizer

synthesizer = Synthesizer(
    tts_checkpoint="checkpoints/best_model.pth",
    tts_config_path="checkpoints/config.json"
)

# Инференс
wav = synthesizer.tts("Тестовая фраза для синтеза")
synthesizer.save_wav(wav, "test_output.wav")

Что входит в работу

Обученная модель (VITS, XTTS или YourTTS) с достигнутым качеством не ниже MOS 4.0.
Датасет в чистом виде с разметкой и скриптами предобработки.
Конфигурационные файлы и код для воспроизведения обучения.
Инференс-скрипты для локального и серверного использования.
API-обёртка (FastAPI/gRPC) для интеграции в ваш сервис.
Документация по настройке и эксплуатации.
Поддержка в течение 2 недель после передачи.

Сроки: подготовка датасета (запись + разметка) — 2–4 недели. Обучение VITS-модели — 1–2 недели (GPU). Интеграция в production-сервис с API — 1 неделя. Полный цикл «с нуля до брендового голоса» — 4–6 недель. Получите консультацию нашего AI-инженера — мы подберём оптимальную архитектуру и рассчитаем точные сроки. Закажите обучение TTS-модели для вашего проекта.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.