Обучение TTS-моделі на основі VITS/XTTS
Обучение власної TTS-моделі дає повний контроль над голосом, мовою та стилем — без залежності від зовнішніх API та без recurring costs.
Вибір архітектури
Для більшості завдань: XTTS v2 для швидкого старту, VITS для повного обучения.
Підготовка датасету
Вимоги:
- Формат: 22050 Hz, 16-bit, mono WAV
- Тривалість: 2–15 сек на клип
- Мінімум: 1000 кліпів для розбірливого TTS
- Рекомендовано: 3000–5000 кліпів для високої якості
Терміни: підготовка датасету — 2–4 тижні. Обучение VITS — 1–2 тижні (GPU). Повний цикл — 4–6 тижнів.







