Інтеграція Coqui TTS для синтезу мови (Open Source) Coqui TTS — бібліотека з набором нейронних TTS-моделей, що передбачаються: VITS, YourTTS, XTTS. Open-source альтернатива хмарним сервісам для завдань із вимогами до конфіденційності даних. Підтримує російську мову. ### Встановлення та доступні моделі```bash
pip install TTS
Список доступных моделей
tts --list_models
### XTTS v2 - мультимовна модель з клонуваннямpython
from TTS.api import TTS
Инициализация XTTS v2
tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
Синтез на русском
tts.tts_to_file( text="Привет! Это пример синтеза речи на русском языке.", speaker_wav="reference_speaker.wav", # референсный голос (3–10 сек) language="ru", file_path="output.wav" )
Потоковый синтез (chunks)
for chunk in tts.tts_with_vc_streaming(
text="Длинный текст для потокового синтеза",
speaker_wav="reference.wav",
language="ru"
):
# обрабатываем chunk аудио
pass
### VITS - швидка модель для російськоїpython
tts = TTS("tts_models/ru/cv/vits") # русская VITS модель
tts.tts_to_file(
text="Привет мир",
file_path="output.wav"
)
### Продуктивність | Модель | GPU | Швидкість | Якість | |--------|-----|---------|---------| | XTTS v2 | RTX 3080 | ~2x RT | Відмінне | | VITS(ru) | RTX 3080 | ~15x RT | Хороше | | YourTTS | RTX 3080 | ~5x RT | Хороше | ### FastAPI обгортка для productionpython
from fastapi import FastAPI
from TTS.api import TTS
import io, soundfile as sf
app = FastAPI() tts_model = TTS("tts_models/multilingual/multi-dataset/xtts_v2").to("cuda")
@app.post("/tts") async def text_to_speech(text: str, language: str = "ru"): wav = tts_model.tts(text=text, language=language, speaker_wav="default_speaker.wav") buf = io.BytesIO() sf.write(buf, wav, 24000, format="WAV") buf.seek(0) return StreamingResponse(buf, media_type="audio/wav")







