Интеграция Piper TTS для офлайн-синтеза речи
Piper — fast open-source neural TTS от Home Assistant team. Работает офлайн, голоса занимают 50–500 MB, inference на CPU в реальном времени. Поддерживает русский и 40+ других языков. Apache 2.0 лицензия.
Характеристики
- Скорость: real-time factor 0.1–0.5 на современном CPU (генерация быстрее воспроизведения)
- Качество: MOS ~3.8/5 для лучших голосов (уступает ElevenLabs, но приемлемо для большинства use cases)
- Размер модели: low (30 MB), medium (60 MB), high quality (250 MB+)
Использование
echo "Привет, это офлайн синтез речи." | piper --model ru_RU-ruslan-medium.onnx --output_file speech.wav
Python API через piper-phonemize + onnxruntime.
Голоса для русского языка
ru_RU-ruslan-medium — мужской голос, хорошее качество. ru_RU-denis-medium — мужской, другой тембр. Добавление кастомного голоса: требует 1–3 часа записи + обучение (Coqui VITS).
Применение
Smart home голосовые уведомления, offline chatbot TTS, industrial HMI, embedded systems (Pi, Jetson Nano), корпоративные системы с требованием data residency.
Сравнение с альтернативами
| Piper | Coqui XTTS | ElevenLabs | |
|---|---|---|---|
| Offline | Да | Да | Нет |
| Качество | Хорошее | Отличное | Превосходное |
| Latency | <100 мс | 200–500 мс | 100–300 мс (API) |
| Кастом голос | Сложно | Легко | Легко |







