Чим відрізняється streaming STT від batch?

Batch STT чекає завершення аудіозапису, повертаючи результат після файлу. Streaming видає часткові токени кожні 100-500 мс, дозволяючи реагувати в реальному часі.

Який двигун найкраще підходить для live-субтитрів?

Deepgram Nova-2 та Google STT дають мінімальну затримку. Для російської мови faster-whisper з GPU – хороший self-hosted варіант.

Чи потрібен VAD при streaming STT?

VAD обов'язковий. Він відсікає тишу, знижуючи обчислювальне навантаження та вартість. Налаштування aggressiveness=2 дає баланс.

Чи можна інтегрувати WebRTC з streaming STT?

Так, браузерний MediaRecorder відправляє Opus чанки через WebSocket. На сервері конвертуємо в PCM 16 кГц.

Як ви тестуєте latency?

Генеруємо синтетичні RTP потоки з вимірами часу send/receive. p95 latency не має перевищувати 400 мс для self-hosted.

Чим відрізняється streaming STT від batch?

Batch STT чекає завершення аудіозапису, повертаючи результат після файлу. Streaming видає часткові токени кожні 100-500 мс, дозволяючи реагувати в реальному часі.

Який двигун найкраще підходить для live-субтитрів?

Deepgram Nova-2 та Google STT дають мінімальну затримку. Для російської мови faster-whisper з GPU – хороший self-hosted варіант.

Чи потрібен VAD при streaming STT?

VAD обов'язковий. Він відсікає тишу, знижуючи обчислювальне навантаження та вартість. Налаштування aggressiveness=2 дає баланс.

Чи можна інтегрувати WebRTC з streaming STT?

Так, браузерний MediaRecorder відправляє Opus чанки через WebSocket. На сервері конвертуємо в PCM 16 кГц.

Як ви тестуєте latency?

Генеруємо синтетичні RTP потоки з вимірами часу send/receive. p95 latency не має перевищувати 400 мс для self-hosted.

Потокове розпізнавання мовлення (Streaming STT) у реальному часі

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Потокове розпізнавання мовлення (Streaming STT) у реальному часі

Середній

від 1 тижня до 3 місяців

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Ми стикалися із завданням: call-центр на 50 операторів, потрібні субтитри в реальному часі для супервайзера. Batch STT давав затримку 5 секунд — пропускав важливі моменти діалогу. На живих субтитрах конференції затримка в 2 секунди вже неприйнятна, а в голосовому асистенті кожна зайва мілісекунда погіршує UX. Рішення — streaming STT з частковими результатами через WebSocket. За 5 років ми вибудували архітектуру, яка тримає latency 100-500 мс при будь-яких навантаженнях.

Які проблеми вирішує streaming STT?

Затримка: Без часткових результатів користувач чекає завершення фрази. Streaming видає попередню транскрипцію кожні 200-400 мс. Для call-центру це означає можливість миттєвої реакції — супервайзер бачить текст через 200 мс після вимовляння.
Паузи та накладання: VAD + endpointing коректно обробляють тишу та overlapping speech. Налаштування aggressiveness=2 відсікає 90% пауз без втрати сенсу.
Точність у реальному часі: Моделі з низькою latency (Deepgram Nova-2) показують WER <5% навіть при 200 мс. Вартість Deepgram Nova-2 становить $0.0043/хв, що на 40% дешевше Google STT.

Як ми будуємо streaming pipeline?

Типова архітектура, яку ми запускали в production:

Microphone → WebSocket (WSS) → FastAPI → STT Engine → NLP → Response

Ключові компоненти реалізовані на Python з асинхронними сокетами.

WebSocket сервер на FastAPI

from fastapi import FastAPI, WebSocket
from faster_whisper import WhisperModel
import numpy as np
import asyncio

app = FastAPI()
model = WhisperModel("medium", device="cuda", compute_type="float16")

@app.websocket("/stream")
async def stream_stt(websocket: WebSocket):
    await websocket.accept()
    audio_buffer = bytearray()
    try:
        while True:
            chunk = await websocket.receive_bytes()
            audio_buffer.extend(chunk)
            if len(audio_buffer) >= 32000 * 2:  # 2 sec @ 16kHz 16-bit
                audio_array = np.frombuffer(audio_buffer, dtype=np.int16).astype(np.float32) / 32768.0
                segments, _ = model.transcribe(audio_array, language="ru")
                partial_text = " ".join([s.text for s in segments])
                await websocket.send_json({"type": "partial", "text": partial_text})
                audio_buffer = bytearray()
    except Exception:
        await websocket.close()

VAD (Voice Activity Detection)

VAD підключаємо до накопичення буфера: відсікаємо тишу, зменшуючи кількість транскрипцій.

import webrtcvad

vad = webrtcvad.Vad(2)
def is_speech(audio_chunk: bytes, sample_rate: int = 16000) -> bool:
    return vad.is_speech(audio_chunk, sample_rate)

Для endpointing тримаємо ковзне вікно тиші 500-800 мс.

Налаштування WebRTC VAD

`aggressiveness=2` дає найкращий баланс чутливості та хибно-позитивних спрацьовувань. При менших значеннях пропускається більше мовлення, при більших – зростає кількість хибних відсічок.

Клієнтська частина

const socket = new WebSocket('wss://api.example.com/stream');
const mediaStream = await navigator.mediaDevices.getUserMedia({ audio: true });
const recorder = new MediaRecorder(mediaStream, { mimeType: 'audio/webm;codecs=opus' });
recorder.ondataavailable = (event) => {
    if (socket.readyState === WebSocket.OPEN) socket.send(event.data);
};
recorder.start(250); // 250ms chunks

Чому VAD критичний для streaming?

Без VAD двигун обробляє весь аудіопотік, включаючи тишу. Це збільшує токенну вартість і затримку. На практиці ми бачили зростання latency p99 на 30% при відсутності попереднього VAD.

Як вибрати STT двигун?

Вибір між хмарою та self-hosted залежить від навантаження, вимог до конфіденційності та бюджету. Згідно з офіційною документацією Deepgram, Nova-2 має latency 180 мс при p95.

Двигун	Latency p95	Підтримувані мови	Вартість
Deepgram Nova-2	180 мс	30+	$0.0043/хв
Google STT Streaming	250 мс	125+	$0.006/хв
Azure Speech	280 мс	100+	$0.01/хв
faster-whisper (self)	350 мс	99	~$0.001/хв
Vosk (self, CPU)	500 мс	20+	~$0/хв

Self-hosted рішення економлять до 80% при обсягах >1000 годин на місяць. Наприклад, faster-whisper на GPU коштує близько $0.001/хв. Для мультимовних проєктів Google та Azure кращі через широту покриття.

Як забезпечити latency p99 < 400 мс?

Ключові фактори: вибір двигуна з низькою latency, оптимізація VAD та налаштування буферизації. Для self-hosted використовуємо faster-whisper з CUDA та INT8-квантизацію — це знижує latency на 30% без втрати точності. Плюс попередня сегментація аудіо через VAD, щоб не транскрибувати тишу.

Які метрики моніторити?

p99 latency — не більше 400 мс для self-hosted, 300 мс для хмарних рішень.
CPU/GPU utilization — щоб уникнути перевантаження під піковим навантаженням.
WER (Word Error Rate) — відстежуємо на вибірці.
Кількість активних сесій — важливо для auto-scaling.

Процес реалізації під ключ

Аналіз: Визначаємо мову, кількість спікерів, очікуваний RPS, вимоги до endpointing.
Проєктування: Будуємо діаграму потоків, обираємо двигун, VAD та метод диспетчеризації.
Розробка: Кодимо WebSocket сервер, інтегруємо STT, налаштовуємо auto-scaling.
Тестування: Генеруємо синтетичні RTP потоки, вимірюємо latency p99, витоки пам'яті.
Деплой: Розгортаємо в k8s з Helm, підключаємо моніторинг (Prometheus + Grafana).
Передача: Документація, навчання команди, кодова база з коментарями.

Що входить у роботу

Архітектурна схема та обґрунтування вибору
Репозиторій з Docker-контейнерами та Helm-чартом
API документація (OpenAPI)
Інтеграція з клієнтськими SDK (Web, iOS, Android — опціонально)
План тестування під навантаженням
Підтримка 1 місяць

Терміни та вартість

Етап	Термін
Базовий WebSocket стример	3–4 дні
Self-hosted з VAD/endpointing	1 тиждень
Повний pipeline	2 тижні
Повний pipeline + клієнтські SDK	2–4 тижні

Вартість розраховується індивідуально під задачу. Отримайте оцінку проєкту — напишіть нам.

Наш досвід

Ми впровадили streaming STT для 10+ проєктів: від call-центрів до живих субтитрів. Наш досвід включає інтеграцію з глибоким фреймворком діалогів та налаштування під високе навантаження (до 1000 одночасних сесій). Гарантуємо latency p99 < 400 мс для self-hosted рішень на базі NVIDIA A10G. Сертифіковані по CUDA (NVIDIA).

Готові реалізувати streaming STT під ключ. Зв'яжіться для консультації — обговоримо вашу задачу та підберемо оптимальну архітектуру.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.