Інтеграція XTTS для мультимовного синтезу мови XTTS v2 (Coqui) - мультимовна TTS-модель з zero-shot клонуванням голосу з 3-6 секунд референсного аудіо. Підтримує 17 мов, включаючи російську. Головна перевага: один голос, що синтезується кількома мовами. ### Підтримувані мови en, es, fr, de, it, pt, pl, tr, ru, nl, cs, ar, zh-cn, hu, ko, ja, hi ### Установка```bash
pip install TTS
python -c "from TTS.api import TTS; TTS('tts_models/multilingual/multi-dataset/xtts_v2')"
### Cross-lingual синтезpython
from TTS.api import TTS
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
Один референсный голос → несколько языков
reference_voice = "speaker_sample.wav"
languages = { "ru": "Добро пожаловать в нашу компанию!", "en": "Welcome to our company!", "de": "Willkommen in unserem Unternehmen!", "fr": "Bienvenue dans notre entreprise!" }
for lang, text in languages.items():
tts.tts_to_file(
text=text,
speaker_wav=reference_voice,
language=lang,
file_path=f"output_{lang}.wav"
)
### Вимоги до референсного аудіо - Довжина: 3–30 секунд (оптимально 6–12 сек) - Якість: 22 kHz+, без шуму та реверберації - Зміст: чиста мова одного, хто говорить без музики ### Оптимізація для productionpython
Предкомпьютим gpt_cond_latent для частого референсного голоса
from TTS.tts.configs.xtts_config import XttsConfig from TTS.tts.models.xtts import Xtts
config = XttsConfig() config.load_json("/path/to/config.json") model = Xtts.init_from_config(config) model.load_checkpoint(config, checkpoint_dir="/path/to/model/") model.cuda()
gpt_cond_latent, speaker_embedding = model.get_conditioning_latents( audio_path=["reference.wav"] )
Кэшируем latents — не пересчитываем при каждом запросе







