Інтеграція OpenAI Whisper для розпізнавання мовлення OpenAI Whisper - open-source модель розпізнавання мовлення, навчена на 680 000 годин мультимовного аудіо. WER на англійській датасеті LibriSpeech - 2,7%, що відповідає рівню професійних транскрипторів. Для російської на чистому аудіо — 8–12% WER. ### Що дає інтеграція Whisper - Локальна обробка без відправки даних у сторонні хмари - Підтримка 99 мов з коробки - Робота з форматами MP3, WAV, FLAC, M4A, OGG, WebM - Автоматичне визначення мови - Виведення тимчасових міток на рівні слів (з `--word_timestamps True Модель | Параметри VRAM | Швидкість (RTX 3090) |
|--------|-----------|------|----------------------| | tiny | 39M | 1 GB | ~32x realtime | | Base | 74M | 1 GB | ~16x realtime | | мало | 244M | 2 GB | ~6x realtime | | medium | 769M | 5 GB | ~2x realtime | | large-v3 | 1550M | 10 Гб | ~1x realtime | Для більшості production-завдань достатньо small або medium - прийнятна якість при розумних ресурсах. ### Стек інтеграції Підключаємо через openai-whisper (PyPI) або через HTTP API OpenAI (/v1/audio/transcriptions). Для високих навантажень - faster-whisper на базі CTranslate2: прискорення в 4x при тій самій якості.```python
from faster_whisper import WhisperModel
model = WhisperModel("medium", device="cuda", compute_type="float16") segments, info = model.transcribe("audio.mp3", beam_size=5) for segment in segments: print(f"[{segment.start:.2f}s] {segment.text}")







