Обучение TTS-модели на основе VITS/XTTS
Обучение собственной TTS-модели даёт полный контроль над голосом, языком и стилем — без зависимости от внешних API и без recurring costs. Актуально для создания уникального брендового голоса, синтеза на редких языках/диалектах, edge-деплоя без интернета.
Выбор архитектуры
| Модель | Тип | Данные для обучения | Качество MOS | Скорость инференса |
|---|---|---|---|---|
| VITS | End-to-end (текст→аудио) | 2–5 ч | 4.2/5 | Realtime ×30 на GPU |
| XTTS v2 (Coqui) | Zero-shot + fine-tune | 3–6 мин (few-shot) | 4.4/5 | Realtime ×10 на GPU |
| YourTTS | Multilingual VITS | 1–3 ч | 4.0/5 | Realtime ×20 |
| MATCHA-TTS | Flow-matching | 2–4 ч | 4.3/5 | Realtime ×50 |
| StyleTTS2 | Style-based | 1–2 ч | 4.5/5 | Realtime ×15 |
Для большинства задач: XTTS v2 для быстрого запуска с минимумом данных, VITS для полного обучения с чистым датасетом.
Подготовка датасета
Минимальные требования для качественного результата:
Формат: 22050 Hz, 16-bit, mono WAV
Длина записей: 2–15 секунд каждая
Минимум: 1000 записей (≈2 часа) для разборчивого TTS
Рекомендуется: 3000–5000 записей (≈8–12 часов) для высокого качества
Текстовый скрипт: UTF-8, одна реплика на строку
Структура датасета:
dataset/
├── wavs/
│ ├── speaker_001.wav
│ ├── speaker_002.wav
│ └── ...
├── metadata.csv # filename|transcription
└── metadata_val.csv # 10% для валидации
Предобработка и нормализация:
import librosa
import soundfile as sf
import numpy as np
from pathlib import Path
def preprocess_audio_for_tts(
input_dir: str,
output_dir: str,
target_sr: int = 22050
) -> dict:
stats = {"processed": 0, "skipped": 0, "errors": []}
Path(output_dir).mkdir(parents=True, exist_ok=True)
for wav_path in Path(input_dir).glob("*.wav"):
audio, sr = librosa.load(str(wav_path), sr=target_sr, mono=True)
# Обрезаем тишину
audio_trimmed, _ = librosa.effects.trim(audio, top_db=20)
# Проверяем длину
duration = len(audio_trimmed) / target_sr
if duration < 1.5 or duration > 15.0:
stats["skipped"] += 1
continue
# Нормализация амплитуды
audio_normalized = audio_trimmed / (np.max(np.abs(audio_trimmed)) + 1e-8)
audio_normalized *= 0.9 # peak -0.9 дБ
output_path = Path(output_dir) / wav_path.name
sf.write(str(output_path), audio_normalized, target_sr, subtype="PCM_16")
stats["processed"] += 1
return stats
Обучение VITS
Конфигурация config.json для VITS (Coqui TTS):
{
"model": "vits",
"run_name": "my_tts_model",
"epochs": 1000,
"batch_size": 32,
"eval_batch_size": 16,
"num_loader_workers": 4,
"audio": {
"sample_rate": 22050,
"win_length": 1024,
"hop_length": 256,
"num_mels": 80,
"mel_fmin": 0,
"mel_fmax": null
},
"datasets": [{
"name": "my_dataset",
"path": "dataset/",
"meta_file_train": "metadata.csv",
"meta_file_val": "metadata_val.csv"
}]
}
Запуск обучения:
from TTS.bin.train_tts import main as train_tts
from TTS.config.shared_configs import BaseDatasetConfig
from TTS.tts.configs.vits_config import VitsConfig
from TTS.tts.datasets import load_tts_samples
from TTS.tts.models.vits import Vits, VitsAudioConfig
from TTS.trainer import Trainer, TrainerArgs
audio_config = VitsAudioConfig(
sample_rate=22050,
win_length=1024,
hop_length=256,
num_mels=80,
mel_fmin=0,
mel_fmax=None
)
config = VitsConfig(
audio=audio_config,
run_name="brand_voice_v1",
batch_size=32,
eval_batch_size=16,
epochs=1000,
text_cleaner="phoneme_cleaners",
use_phonemes=True,
phoneme_language="ru-ru",
phoneme_cache_path="phoneme_cache/",
output_path="checkpoints/",
datasets=[BaseDatasetConfig(
formatter="ljspeech",
meta_file_train="metadata.csv",
path="dataset/"
)]
)
train_samples, eval_samples = load_tts_samples(
config.datasets,
eval_split=True,
eval_split_size=0.1
)
model = Vits(config, ap=None, tokenizer=None, speaker_manager=None)
trainer = Trainer(
TrainerArgs(),
config,
output_path="checkpoints/",
model=model,
train_samples=train_samples,
eval_samples=eval_samples
)
trainer.fit()
XTTS v2 fine-tuning (few-shot)
XTTS v2 поддерживает fine-tuning с 3–6 минутами аудио:
from TTS.demos.xtts_ft_demo.xtts_demo import train_gpt
# Датасет: минимум 100 записей по 2–6 секунд каждая
train_gpt(
language="ru",
num_epochs=6,
batch_size=4,
grad_acumm=1,
train_csv="dataset/metadata_train.csv",
eval_csv="dataset/metadata_eval.csv",
output_path="xtts_ft_checkpoints/"
)
После fine-tuning инференс с кастомным голосом:
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
tts.tts_to_file(
text="Добро пожаловать в нашу компанию.",
speaker_wav="reference_voice.wav", # 3–10 сек эталонного аудио
language="ru",
file_path="output.wav",
model_path="xtts_ft_checkpoints/best_model.pth"
)
Мониторинг качества обучения
# Ключевые метрики в tensorboard
# tensorboard --logdir checkpoints/
metrics_to_watch = {
"loss/train_loss": "должен монотонно убывать",
"loss/val_loss": "параллельно train, без расхождения",
"loss/kl_loss": "KL-дивергенция латентного пространства",
"loss/disc_loss": "дискриминатор (GAN-компонент)",
"grad_norm": "должен быть < 10, иначе взрыв градиентов"
}
Звуковой контроль качества каждые 100 эпох:
def evaluate_checkpoint(checkpoint_path: str, test_texts: list[str]) -> None:
tts = TTS(model_path=checkpoint_path)
for i, text in enumerate(test_texts):
tts.tts_to_file(text=text, file_path=f"eval/epoch_{i}.wav")
# Прослушиваем и оцениваем разборчивость, натуральность, артефакты
Инфраструктура обучения
| GPU | Время обучения (1000 эпох, VITS) | VRAM |
|---|---|---|
| RTX 3090 (24 GB) | ~12 часов | 18 GB |
| A100 (40 GB) | ~5 часов | 22 GB |
| 2× A10G | ~3 часа | 2×24 GB |
| CPU (нет GPU) | Не рекомендуется | — |
Облачные варианты: RunPod ($1.5/ч для A100), Lambda Cloud ($1.1/ч), Vast.ai (~$0.5–0.8/ч для A100).
Post-training: деплой модели
# ONNX экспорт для edge-деплоя
from TTS.utils.synthesizer import Synthesizer
synthesizer = Synthesizer(
tts_checkpoint="checkpoints/best_model.pth",
tts_config_path="checkpoints/config.json"
)
# Инференс
wav = synthesizer.tts("Тестовая фраза для синтеза")
synthesizer.save_wav(wav, "test_output.wav")
Сроки: подготовка датасета (запись + разметка) — 2–4 недели. Обучение VITS-модели — 1–2 недели (GPU). Интеграция в production-сервис с API — 1 неделя. Полный цикл «с нуля до брендового голоса» — 4–6 недель.







