Інтеграція Vosk (офлайн STT) для розпізнавання мовлення
Vosk — open-source офлайн toolkit розпізнавання мовлення на базі Kaldi. Працює без інтернету, підтримує 20+ мов включаючи українську, займає 50–500 MB залежно від моделі. Ідеальний для приватних та офлайн-первих додатків.
Можливості Vosk
- Streaming recognition (real-time, не чекає кінця фрази)
- Speaker identification (хто говорить)
- Partial results для відображення тексту під час мовлення
- Custom dictionary для спеціалізованої термінології
- Bindings: Python, Java (Android), JavaScript (Node.js/Browser), C#, Go
Моделі для української мови
vosk-model-uk-v3 — найкраща якість для української. WER ~10% на чистому мовленні, ~18% у шумі. vosk-model-small-uk-v3 (45 MB) — для embedded пристроїв, WER ~16%.
Інтеграція
from vosk import Model, KaldiRecognizer
import pyaudio
model = Model("vosk-model-uk-v3")
recognizer = KaldiRecognizer(model, 16000)
# streaming recognition через PyAudio або WebSocket
Коли Vosk vs Whisper
Vosk краще: real-time streaming, embedded пристрої (Pi, microcontroller), строгі вимоги до приватності, низькі latency вимоги. Whisper краще: найвища якість розпізнавання, робота з поганою акустикою, широкий охоплення мов.







