Інтеграція Piper TTS для офлайн-синтезу мовлення
Piper — швидкий open-source neural TTS від Home Assistant team. Працює офлайн, голоси займають 50–500 MB, inference на CPU в реальному часі. Підтримує українську та 40+ інших мов. Apache 2.0 ліцензія.
Характеристики
- Швидкість: real-time factor 0.1–0.5 на сучасному CPU (генерація швидше за відтворення)
- Якість: MOS ~3.8/5 для найкращих голосів (поступається ElevenLabs, але прийнятно для більшості use cases)
- Розмір моделі: низький (30 MB), середній (60 MB), висока якість (250 MB+)
Використання
echo "Привіт, це офлайн синтез мовлення." | piper --model uk_UA-tanya-medium.onnx --output_file speech.wav
Python API через piper-phonemize + onnxruntime.
Голоси для української мови
uk_UA-tanya-medium — жіночий голос, хорошої якості. uk_UA-pavlo-medium — чоловічий голос, різний тембр. Додавання кастомного голосу: вимагає 1–3 годин запису + тренування (Coqui VITS).
Застосування
Голосові повідомлення розумного дому, офлайн чатбот TTS, промислові HMI, embedded системи (Pi, Jetson Nano), корпоративні системи з вимогами data residency.
Порівняння з альтернативами
| Piper | Coqui XTTS | ElevenLabs | |
|---|---|---|---|
| Offline | Так | Так | Ні |
| Якість | Добра | Відмінна | Превосходна |
| Latency | <100 мс | 200–500 мс | 100–300 мс (API) |
| Кастом голос | Складно | Легко | Легко |







