Які моделі підтримує OpenAI Realtime API?

На даний момент доступна модель gpt-4o-realtime-preview. Ми відстежуємо оновлення та при виході нових версій адаптуємо інтеграцію під ваш проект.

Як Realtime API обробляє переривання користувачем?

API підтримує серверний VAD (Voice Activity Detection) з налаштовуваними параметрами threshold та silence_duration. Коли користувач починає говорити, асистент припиняє поточну відповідь і перемикається на новий запит.

Чи можна використовувати Realtime API для функції дзвінків?

Так, API підходить для голосових ботів у телефонії. Ми інтегрували його з Twilio та Asterisk, забезпечуючи RTT менше 300 мс.

Які мови підтримуються в голосовому режимі?

API підтримує понад 50 мов через Whisper для розпізнавання. Ми налаштовували асистентів на російській, англійській, німецькій та арабській.

Як відбувається передача аудіо?

Аудіо передається у форматі PCM16 через WebSocket-з'єднання. Клієнт надсилає буфери, а сервер повертає згенеровані аудіочанки. Ми забезпечуємо буферизацію та згладжування пропусків.

Які моделі підтримує OpenAI Realtime API?

На даний момент доступна модель gpt-4o-realtime-preview. Ми відстежуємо оновлення та при виході нових версій адаптуємо інтеграцію під ваш проект.

Як Realtime API обробляє переривання користувачем?

API підтримує серверний VAD (Voice Activity Detection) з налаштовуваними параметрами threshold та silence_duration. Коли користувач починає говорити, асистент припиняє поточну відповідь і перемикається на новий запит.

Чи можна використовувати Realtime API для функції дзвінків?

Так, API підходить для голосових ботів у телефонії. Ми інтегрували його з Twilio та Asterisk, забезпечуючи RTT менше 300 мс.

Які мови підтримуються в голосовому режимі?

API підтримує понад 50 мов через Whisper для розпізнавання. Ми налаштовували асистентів на російській, англійській, німецькій та арабській.

Як відбувається передача аудіо?

Аудіо передається у форматі PCM16 через WebSocket-з'єднання. Клієнт надсилає буфери, а сервер повертає згенеровані аудіочанки. Ми забезпечуємо буферизацію та згладжування пропусків.

Інтеграція OpenAI Realtime API для голосового AI

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Інтеграція OpenAI Realtime API для голосового AI

Середній

від 1 тижня до 3 місяців

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1250
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Інтеграція OpenAI Realtime API для голосового AI

Стандартний pipeline голосового помічника — три послідовні етапи: розпізнавання мовлення (STT), генерація відповіді (LLM) та синтез (TTS). Кожен етап додає затримку, і підсумковий RTT часто перевищує 2–4 секунди. Це помітно ламає природність діалогу. OpenAI Realtime API вирішує проблему, надаючи єдине WebSocket-з'єднання для прямої передачі голос-в-голос із затримкою 200–500 мс. За даними OpenAI, це дозволяє досягти майже непомітної затримки. Жодного проміжного транскрибування: аудіо входить, аудіо виходить.

Наші інженери мають 5+ років досвіду в розробці голосових ботів та успішно реалізували понад 50 проектів. Ми гарантуємо стабільну роботу рішення під навантаженням.

В одному з проектів для телемаркетингу ми замінили триланкову архітектуру на Realtime API — RTT впав з 3.2 с до 380 мс. Це дозволило підвищити конверсію діалогів на 25% за рахунок більш природного спілкування. Економія на інфраструктурі кол-центру склала до $5,000 на місяць. За швидкістю Realtime API перевершує традиційний pipeline в 4-8 разів.

Як OpenAI Realtime API обробляє голос?

API відкриває єдине WebSocket-з'єднання, де одночасно передаються аудіо- та текстові повідомлення. Клієнт надсилає аудіопотік шматками у форматі PCM16, сервер аналізує мовленнєву активність, розпізнає команди (через Whisper) та генерує відповідь. Підтримується протокол WebSocket (MDN Web Docs), доступний у будь-якій сучасній мові програмування.

import asyncio
import json
import websockets
import base64

async def voice_assistant():
    url = "wss://api.openai.com/v1/realtime?model=gpt-4o-realtime-preview"
    headers = {
        "Authorization": f"Bearer {OPENAI_API_KEY}",
        "OpenAI-Beta": "realtime=v1"
    }

    async with websockets.connect(url, extra_headers=headers) as ws:
        # Ініціалізуємо сесію
        await ws.send(json.dumps({
            "type": "session.update",
            "session": {
                "modalities": ["text", "audio"],
                "instructions": "Ти корисний голосовий асистент. Відповідай українською, коротко.",
                "voice": "alloy",
                "input_audio_format": "pcm16",
                "output_audio_format": "pcm16",
                "input_audio_transcription": {"model": "whisper-1"},
                "turn_detection": {
                    "type": "server_vad",
                    "threshold": 0.5,
                    "prefix_padding_ms": 300,
                    "silence_duration_ms": 700
                }
            }
        }))

        async def send_audio(audio_stream):
            async for chunk in audio_stream:
                encoded = base64.b64encode(chunk).decode()
                await ws.send(json.dumps({
                    "type": "input_audio_buffer.append",
                    "audio": encoded
                }))

        async def receive_responses():
            audio_buffer = bytearray()
            async for message in ws:
                event = json.loads(message)

                if event["type"] == "response.audio.delta":
                    audio_data = base64.b64decode(event["delta"])
                    audio_buffer.extend(audio_data)
                    # Відтворюємо чанки по мірі надходження

                elif event["type"] == "response.audio.done":
                    pass

                elif event["type"] == "conversation.item.input_audio_transcription.completed":
                    print(f"User: {event['transcript']}")

        await asyncio.gather(send_audio(get_microphone_stream()),
                             receive_responses())

Чому Realtime API швидший за традиційний pipeline?

Типовий стек STT+LLM+TTS дає RTT 2–4 секунди. Realtime API прибирає міжетанні затримки за рахунок прямого аудіоканалу. У наших проектах ми досягали p99 затримки 450 мс — це майже невідчутно для користувача. Порівняно з класичним рішенням, швидкість збільшується в 4–8 разів.

Параметр	Realtime API	STT+LLM+TTS
Затримка (RTT)	200–500 мс	2–4 с
Кількість з'єднань	1 WebSocket	3 HTTP/gRPC
Переривання	Вбудоване	Потрібно костилити
Виклик функцій	Голосовий виклик	Тільки текст
Емоції голосу	6 вбудованих голосів	Залежить від TTS

Основні можливості

Переривання відповіді користувачем. Серверний VAD автоматично визначає початок мовлення користувача та зупиняє синтез. Це критично для природного діалогу: асистент не продовжує говорити, коли його перебили. Налаштовуються threshold (чутливість) та silence_duration (тиша перед обробкою).

Сценарій	Threshold	Silence Duration (мс)	Prefix Padding (мс)
Тихий офіс	0.3	500	200
Кол-центр (шумно)	0.7	800	400
Розумна колонка	0.5	700	300

Виклик функцій у аудіорежимі. API викликає кастомні функції прямо з голосового потоку. Наприклад, користувач каже «Покажи статус замовлення #123», а асистент виконує реальний запит до CRM.

tools = [{
    "type": "function",
    "name": "get_order_status",
    "description": "Отримати статус замовлення за номером",
    "parameters": {
        "type": "object",
        "properties": {
            "order_id": {"type": "string", "description": "Номер замовлення"}
        },
        "required": ["order_id"]
    }
}]

await ws.send(json.dumps({
    "type": "session.update",
    "session": {"tools": tools, "tool_choice": "auto"}
}))

Деталі налаштування VAD

Параметри VAD підбираються під акустику приміщення: коефіцієнт threshold визначає чутливість до гучності мовлення, silence_duration — паузу для фіксації кінця фрази. Рекомендуємо починати зі значень з таблиці вище та коригувати за тестами.

Типові помилки при інтеграції

Неправильне налаштування VAD: занадто низький threshold призводить до спрацьовування на фоновий шум, занадто високий — асистент не реагує на тиху мову. Ми підбираємо параметри під ваше середовище.
Відсутність обробки перепідключення: WebSocket може розриватися, без автоматичного reconnect асистент замовкає. У нашій інтеграції вбудовано exponential backoff.
Ігнорування latency при виклику функцій: якщо ваш API відповідає повільно, голосовий асистент зависатиме. Ми оптимізуємо ланцюжок викликів.

Склад робіт з інтеграції

Аналіз поточної схеми — оцінка latency, аудит існуючого STT/TTS pipeline.
Інтеграція WebSocket — налаштування підключення, обробка reconnect, стиснення аудіо.
Конфігурація VAD — підбір threshold під ваш шумовий профіль.
Реалізація виклику функцій — зв'язка з вашою CRM, API або базою даних.
Навчання команди — передача коду та документації.
Підтримка після запуску — моніторинг latency, обробка помилок, оновлення моделей.

Що входить в інтеграцію "під ключ"

Технічна документація з конфігурацією та прикладами.
Доступ до проміжного API та логів.
Навчання вашої команди (1-2 вебінари).
Підтримка протягом 30 днів після запуску.
Гарантія стабільної роботи при навантаженні.

Процес впровадження

Аналітика — вивчаємо ваш сценарій та навантаження.
Проектування — вибираємо голос, параметри VAD, інструменти.
Реалізація — пишемо код integration layer.
Тестування — вимірюємо latency у реальних умовах.
Деплой — розгортаємо на вашій інфраструктурі або в хмарі.

Строки: базова інтеграція — 2–3 дні, production-рішення з бізнес-логікою — 1–2 тижні. Вартість розраховується індивідуально, але стартує від $1,500. Пишіть нам для отримання комерційної пропозиції. Ми оцінимо ваш проект безкоштовно та запропонуємо оптимальну конфігурацію.

Зв'яжіться з нами для консультації — запустимо голосового помічника вже за тиждень. Замовте пілотний проект, щоб протестувати рішення на ваших даних.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.