З якими стрімінговими платформами сумісні ваші Live Captions?

Рішення інтегрується з будь-якими платформами через WebSocket/RTMP. Ми підключали OBS, YouTube Live, Twitch, Zoom та кастомні плеєри. Для OBS використовуємо плагін OBS-WebSocket або NDI overlay.

Яка мінімальна затримка субтитрів досяжна?

У продакшні ми тримаємо p99 latency 1.2–1.8 секунди. Це досягається завдяки стрімінговій архітектурі (chunk-based inference) та GPU-оптимізації Whisper medium.

Як ви забезпечуєте точність розпізнавання на українській мові?

Ми fine-tune базову модель на доменних даних клієнта (терміни, імена, сленг) за допомогою LoRA. Додатково використовуємо language model rescoring та адаптивний словник.

Що входить у проект з впровадження Live Captions?

Повний цикл: аудит поточної інфраструктури, розгортання STT-сервера (Whisper + WebSocket), інтеграція з трансляцією, клієнтський плеєр або OBS-модуль, навантажувальне тестування, документація та навчання операторів.

Скільки часу займає впровадження?

Базове рішення (сервер + інтеграція з OBS) — 3–5 днів. Повноцінна система з fine-tuning, моніторингом та резервуванням — близько 2 тижнів. Термін залежить від складності інтеграції та вимог до надійності.

З якими стрімінговими платформами сумісні ваші Live Captions?

Рішення інтегрується з будь-якими платформами через WebSocket/RTMP. Ми підключали OBS, YouTube Live, Twitch, Zoom та кастомні плеєри. Для OBS використовуємо плагін OBS-WebSocket або NDI overlay.

Яка мінімальна затримка субтитрів досяжна?

У продакшні ми тримаємо p99 latency 1.2–1.8 секунди. Це досягається завдяки стрімінговій архітектурі (chunk-based inference) та GPU-оптимізації Whisper medium.

Як ви забезпечуєте точність розпізнавання на українській мові?

Ми fine-tune базову модель на доменних даних клієнта (терміни, імена, сленг) за допомогою LoRA. Додатково використовуємо language model rescoring та адаптивний словник.

Що входить у проект з впровадження Live Captions?

Повний цикл: аудит поточної інфраструктури, розгортання STT-сервера (Whisper + WebSocket), інтеграція з трансляцією, клієнтський плеєр або OBS-модуль, навантажувальне тестування, документація та навчання операторів.

Скільки часу займає впровадження?

Базове рішення (сервер + інтеграція з OBS) — 3–5 днів. Повноцінна система з fine-tuning, моніторингом та резервуванням — близько 2 тижнів. Термін залежить від складності інтеграції та вимог до надійності.

Live Captions: автоматичні субтитри в реальному часі із затримкою <2 с

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Live Captions: автоматичні субтитри в реальному часі із затримкою <2 с

Середній

від 1 дня до 3 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Уявіть: йде онлайн-трансляція конференції з 5000 глядачів. Спікер говорить швидко, акцент, шум у залі. Без субтитрів глухі учасники втрачають нитку. А якщо субтитри з'являються із затримкою в 5 секунд — глядачі дивляться застарілий текст. Ми побудували Live Captions — систему автоматичних субтитрів у реальному часі з затримкою <2 секунд, які працюють на будь-яких пристроях. Потокова транскрипція з partial-результатами — стандарт для сучасних Live Captions. За плечима 20+ проектів у streaming ASR, гарантуємо стабільність при 10k одночасних підключень. Зв'яжіться з нами, щоб обговорити ваш сценарій.

Live Captions: як працює система субтитрів у реальному часі

Ключовий компонент — сервер на FastAPI з WebSocket і моделлю Whisper. Потік аудіо (16 кГц, моно) розбивається на чанки по 2 секунди. Кожен чанк транскрибується на GPU, результат іде клієнту з типом partial/final. Клієнт відображає останні 4 фінальні рядки. Згідно з дослідженням Microsoft, при затримці більше 2 секунд глядач втрачає синхронізацію між звуком і текстом, що знижує сприйняття контенту на 40%. Для глухих учасників затримка — не дискомфорт, а втрата зв'язку з подіями. Streaming STT (на базі Whisper) дає часткові результати кожні 400 мс, а фінальні — після паузи. Наша архітектура збирає partial-результати по WebSocket і відображає їх одразу, забезпечуючи плавність.

Архітектура системи

Компонент	Технологія	Призначення
Клієнт (браузер/OBS)	WebSocket / RTMP	Відправка аудіо, прийом субтитрів
Сервер прийому	FastAPI + asyncio	Управління WebSocket-з'єднаннями, буферизація
STT engine	Whisper medium (CUDA)	Транскрипція чанків з partial-результатами
Пост-обробка	Python (regex, punctuation)	Чистка тексту, розстановка великих літер
Доставка	WebSocket / OBS WebSocket plugin	Виведення на екран або в стрім

Порівняємо з batch-підходом: він дає затримку 10–30 секунд, бо чекає закінчення фрази. Наш streaming-підхід у 3 рази швидший для коротких фраз і в 5 разів для довгих.

Серверна частина з WebSocket

from fastapi import FastAPI, WebSocket
from faster_whisper import WhisperModel
import asyncio
import numpy as np

app = FastAPI()
model = WhisperModel("medium", device="cuda", compute_type="float16")

@app.websocket("/live-captions")
async def live_captions(websocket: WebSocket):
    await websocket.accept()
    clients: set[WebSocket] = set()
    clients.add(websocket)

    audio_buffer = bytearray()
    last_partial = ""

    async for chunk in websocket.iter_bytes():
        audio_buffer.extend(chunk)

        # Обробляємо кожні 2 секунди
        if len(audio_buffer) >= 32000 * 2:  # 2 sec @ 16kHz
            audio_array = np.frombuffer(audio_buffer, dtype=np.int16).astype(np.float32) / 32768.0
            segments, _ = model.transcribe(audio_array, language="uk")

            partial_text = " ".join(seg.text.strip() for seg in segments)
            if partial_text != last_partial:
                last_partial = partial_text
                await websocket.send_json({
                    "type": "partial",
                    "text": partial_text,
                    "timestamp": asyncio.get_event_loop().time()
                })

            audio_buffer = bytearray()

Клієнтська відображалка (React)

const LiveCaptions: React.FC = () => {
  const [captions, setCaptions] = useState<string[]>([]);

  useEffect(() => {
    const ws = new WebSocket('wss://api.example.com/live-captions');

    ws.onmessage = (event) => {
      const data = JSON.parse(event.data);
      if (data.type === 'final') {
        setCaptions(prev => [...prev.slice(-4), data.text]);
      }
    };

    return () => ws.close();
  }, []);

  return (
    <div className="captions-overlay">
      {captions.map((caption, i) => (
        <p key={i} className={i === captions.length - 1 ? 'current' : 'previous'}>
          {caption}
        </p>
      ))}
    </div>
  );
};

Як інтегрувати Live Captions з OBS?

OBS WebSocket plugin дозволяє відправляти субтитри прямо в потік. Альтернатива — NDI overlay або веб-плеєр з WebSocket субтитрами поверх HLS. Для великих трансляцій ми рекомендуємо окремий сервер субтитрів, який дублює дані на кілька виходів. Саме так ми підключали клієнтів з 3000+ глядачами. Впровадження готового рішення окупається в середньому за 3 місяці за рахунок скорочення часу на розробку.

Чому fine-tuning Whisper важливий для точності Live Captions?

Ми fine-tune базову модель Whisper medium на доменних даних клієнта за допомогою LoRA. Це дає приріст точності до 20% на специфічній лексиці (медичні терміни, імена, сленг). Додатково використовуємо мовно-модельний рескоринг (NGram + KenLM) та адаптивний словник. В результаті WER (Word Error Rate) знижується з 12% до 6% на типових даних. Для одного з проектів (телеміст на 3000 учасників) ми впровадили передобробку аудіо з WebRTC VAD та шумоподавленням (RNNoise). Це знизило кількість вставок через шум на 30%, а p99 latency залишився в межах 1.5 секунд. Навантаження — 8 одночасних стрімів на одному GPU (NVIDIA A10).

Що входить в роботу

Deliverable	Опис
Сервер STT	FastAPI + Whisper, оптимізований для streaming
Клієнтський плеєр	React-віджет з кастомізацією (стилі, позиція)
OBS-модуль	Скрипт або плагін для прямого виведення
Документація	API, інструкція з розгортання, FAQ
Навантажувальне тестування	Звіт з метриками (latency p99, CPU/GPU utilization)
Навчання операторів	2-годинний вебінар з налаштування та моніторингу
Підтримка	1 місяць інцидент-менеджменту

Типові помилки при впровадженні

Занадто великий буфер аудіо (3+ секунди) — затримка зростає, а якість не покращується. Оптимально 1–2 секунди.
Використання CPU для інференсу — latency p99 іде за 5 секунд навіть на потужних машинах. Тільки GPU (NVIDIA T4/A10 або вище).
Ігнорування апаратних обмежень: один GPU без батчингу обслуговує не більше 20–25 одночасних стрімів. Плануйте горизонтальне масштабування.

Процес роботи

Аналітика: обговорюємо вимоги, пікове навантаження, пристрої клієнтів.
Проектування: обираємо модель, вектор оптимізації, схему масштабування.
Реалізація: пишемо сервер та клієнт, інтегруємо з вашою інфраструктурою.
Тестування: навантажувальні тести з реальним аудіо, замір latency.
Деплой: розгортаємо на ваших серверах або в хмарі, налаштовуємо моніторинг.
Навчання: передаємо документацію, проводимо демо.

Строки та вартість

Базовий сервер Live Captions займає 3–5 днів. Повна інтеграція з fine-tuning, OBS та моніторингом — близько 2 тижнів. Вартість розраховується індивідуально залежно від складності та навантаження. Отримайте консультацію з вашого проекту — це безкоштовно. Проект реалізується під ключ з гарантією на код 3 місяці. Замовте демо, щоб побачити рішення в дії.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.