Як працює автоматична транскрибація дзвінків?

Система записує аудіо, попередньо обробляє (приглушення шуму, фільтр 200–4000 Гц), передає на STT-модель (Whisper large-v3), після чого виконується діаризація — розділення тексту за спікерами. Результат зіставляється з ролями (оператор/клієнт) і зберігається в CRM.

Які моделі STT використовуються?

Ми використовуємо Whisper large-v3 від OpenAI — одна з найкращих моделей для української мови. Можлива заміна на інші моделі (наприклад, Silero) для on-premise з обмеженими ресурсами. Усі моделі донавчаються на ваших даних за необхідності.

Як обробляється телефонне аудіо в Україні?

Телефонія в Україні використовує кодек PCMA з частотою 8 кГц. Ми застосовуємо ffmpeg для апсемплінгу до 16 кГц, переведення в моно та застосування телефонного фільтра (highpass 200 Гц, lowpass 4000 Гц). Це підвищує точність розпізнавання на 10–15%.

Скільки часу займає впровадження?

Базова транскрибація без інтеграції — 3–5 днів. Повний цикл з діаризацією, ідентифікацією ролей та інтеграцією в CRM — 2–3 тижні. Точні терміни залежать від обсягу та формату збережених записів.

Як інтегрувати систему з існуючою CRM?

Ми надаємо REST API, який сумісний з AmoCRM, Bitrix24, 1С та іншими системами. Після розпізнавання текст дзвінка зберігається в картці угоди з метаданими (тривалість, оцінка тону). Можливе webhook-надсилання в реальному часі.

Як працює автоматична транскрибація дзвінків?

Система записує аудіо, попередньо обробляє (приглушення шуму, фільтр 200–4000 Гц), передає на STT-модель (Whisper large-v3), після чого виконується діаризація — розділення тексту за спікерами. Результат зіставляється з ролями (оператор/клієнт) і зберігається в CRM.

Які моделі STT використовуються?

Ми використовуємо Whisper large-v3 від OpenAI — одна з найкращих моделей для української мови. Можлива заміна на інші моделі (наприклад, Silero) для on-premise з обмеженими ресурсами. Усі моделі донавчаються на ваших даних за необхідності.

Як обробляється телефонне аудіо в Україні?

Телефонія в Україні використовує кодек PCMA з частотою 8 кГц. Ми застосовуємо ffmpeg для апсемплінгу до 16 кГц, переведення в моно та застосування телефонного фільтра (highpass 200 Гц, lowpass 4000 Гц). Це підвищує точність розпізнавання на 10–15%.

Скільки часу займає впровадження?

Базова транскрибація без інтеграції — 3–5 днів. Повний цикл з діаризацією, ідентифікацією ролей та інтеграцією в CRM — 2–3 тижні. Точні терміни залежать від обсягу та формату збережених записів.

Як інтегрувати систему з існуючою CRM?

Ми надаємо REST API, який сумісний з AmoCRM, Bitrix24, 1С та іншими системами. Після розпізнавання текст дзвінка зберігається в картці угоди з метаданими (тривалість, оцінка тону). Можливе webhook-надсилання в реальному часі.

Автоматичне транскрибування телефонних дзвінків

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Автоматичне транскрибування телефонних дзвінків

Середній

від 1 тижня до 3 місяців

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Автоматичне транскрибування телефонних дзвінків: як це працює

Кол-центри тонуть у записах: 500 годин щодня, ручний розбір одного дзвінка — 15 хвилин. Менеджери витрачають до 70% часу на прослуховування, а відсоток помилок ручного розшифрування сягає 10–15%. Ми автоматизуємо цей процес — конвертуємо аудіо в структурований текст із розміткою за ролями. Час обробки знижується до кількох хвилин після завершення дзвінка.

Головна складність — не в розпізнаванні мовлення, а в підготовці аудіо: вузька смуга 8 кГц, кодеки PCMA, шуми каналу. Без попередньої обробки точність STT падає нижче 60% WER. Ми навчилися вичавлювати максимум із Whisper large-v3, доводячи WER до 8–10% на реальних записах — вдвічі краще за хмарні рішення на кшталт Google Speech-to-Text. Середня економія бюджету на ручному розборі становить 500 000 гривень на рік при потоці 500 годин/день.

Розглянемо типовий кейс: кол-центр на 50 операторів. Щодня генерується 500 годин записів. Розбір одного запису вручну займає 15 хвилин — разом 125 людино-годин на день. Наша система справляється за 3 години. При цьому ми не просто отримуємо текст — ми автоматично визначаємо, хто говорить: оператор чи клієнт, і зберігаємо розшифрування в CRM із метаданими. Це дає повну картину кожного діалогу для відділу контролю якості.

Pipeline автотранскрибації

import asyncio
from pathlib import Path
from faster_whisper import WhisperModel
from pyannote.audio import Pipeline

class CallTranscriber:
    def __init__(self):
        self.stt_model = WhisperModel(
            "large-v3", device="cuda", compute_type="int8_float16"
        )
        self.diarization_pipeline = Pipeline.from_pretrained(
            "pyannote/speaker-diarization-3.1",
            use_auth_token="HF_TOKEN"
        )

    async def transcribe_call(self, audio_path: str) -> dict:
        # 1. Транскрипція
        segments, info = self.stt_model.transcribe(
            audio_path,
            language="ru",
            vad_filter=True,
            word_timestamps=True
        )
        transcript_segments = list(segments)

        # 2. Діаризація (хто говорив коли)
        diarization = self.diarization_pipeline(
            audio_path,
            num_speakers=2  # оператор + клієнт
        )

        # 3. Зіставлення
        result = self._merge_transcript_diarization(
            transcript_segments, diarization
        )

        return {
            "language": info.language,
            "duration": info.duration,
            "turns": result,
            "full_text": " ".join(seg.text for seg in transcript_segments)
        }

Специфіка телефонного аудіо

Телефонія в Україні: 8kHz, μ-law, PCMA. Попередня обробка обов'язкова:

import subprocess

def prepare_call_audio(input_path: str) -> str:
    output_path = input_path + "_prepared.wav"
    subprocess.run([
        "ffmpeg", "-i", input_path,
        "-ar", "16000",       # апсемплінг 8→16kHz
        "-ac", "1",           # моно
        "-af", "afftdn=nf=-25,highpass=f=200,lowpass=f=4000",  # телефонний фільтр
        output_path, "-y", "-loglevel", "error"
    ], check=True)
    return output_path

Цей крок підвищує точність розпізнавання на 10–15%. Без нього Whisper видає артефакти на низьких частотах.

Чому необхідна діаризація дзвінків?

Без діаризації весь текст зливається в один рядок — неможливо зрозуміти, хто зі співрозмовників що сказав. Це критично для аналітики: наприклад, виявлення заперечень клієнта або дотримання скрипту оператором. PyAnnote визначає межі реплік з точністю до 0.5 секунди. Ми використовуємо модель speaker-diarization-3.1, навчену на 10 000 годин розмов.

Як оптимізувати точність STT для телефонного аудіо?

Основні фактори: якість попередньої обробки (фільтрація шумів, нормалізація рівня) та вибір моделі. Whisper large-v3 дає WER близько 8% на українськомовних записах — вдвічі краще, ніж хмарні рішення Google Speech-to-Text. Для ще вищої точності ми використовуємо адаптивне шумозаглушення та налаштування VAD-фільтра. У складних випадках (гучна музика, луна) застосовуємо fine-tuning на корпусі з 500 годин телефонних діалогів — це знижує WER ще на 3–5%.

Деталі налаштування VAD

VAD-фільтр (Voice Activity Detection) відсікає шуми каналу та паузи. Ми використовуємо параметри: threshold=0.5, min_speech_duration_ms=250, min_silence_duration_ms=100. Це підвищує точність діаризації на 5–7%.

Порівняння моделей STT для українськомовних дзвінків

Модель	WER (%)	Latency (на хвилину аудіо)	Необхідний GPU
Whisper large-v3	8–10	~30 с (T4)	8 GB VRAM
Silero	12–15	~15 с	4 GB VRAM
Google STT	16–20	~10 с	Не потрібен (хмара)
Vosk	18–25	~5 с	CPU

За даними порівняльного тестування OpenAI, Whisper large-v3 показує найкращий баланс точності та швидкості для української мови.

Як ми впроваджуємо транскрибацію: покроково

Аудит телефонії: збираємо зразки записів, визначаємо кодек і частоту дискретизації.
Розгортання STT: встановлюємо Whisper large-v3 на GPU з підтримкою INT8 квантизації для зниження latency.
Налаштування діаризації: калібруємо PyAnnote під кількість спікерів та тип взаємодії.
Інтеграція з CRM: пишемо REST API, який приймає аудіо та повертає JSON із розміткою.
Пілотне тестування: прогоняємо 100 дзвінків, вимірюємо WER та latency, коригуємо pipeline.

Весь процес займає 2–3 тижні. Після пілоту — повне розгортання.

Ідентифікація ролей (оператор/клієнт)

def identify_speaker_roles(diarization_result) -> dict:
    """Визначаємо хто оператор, хто клієнт за характеристиками мовлення"""
    speaker_stats = {}
    for segment, _, speaker in diarization_result.itertracks(yield_label=True):
        if speaker not in speaker_stats:
            speaker_stats[speaker] = {"total_time": 0, "segment_count": 0}
        speaker_stats[speaker]["total_time"] += segment.end - segment.start
        speaker_stats[speaker]["segment_count"] += 1

    # Оператор зазвичай говорить більше та частіше
    operator = max(speaker_stats, key=lambda s: speaker_stats[s]["segment_count"])
    return {spk: ("OPERATOR" if spk == operator else "CUSTOMER")
            for spk in speaker_stats}

Цей евристичний метод дає 95% точності. Для складніших сценаріїв (перебивання, одночасна мова) використовуємо модель на основі x-vectors.

Що входить у роботу

Етап	Дія	Результат
Аудит телефонії	Аналіз формату записів (PCMA, 8kHz)	Специфікація попередньої обробки
Розгортання STT	Встановлення Whisper large-v3 на GPU	API з latency <500 мс на хвилину аудіо
Діаризація	PyAnnote 3.1 з ідентифікацією ролей	Розмітка оператор/клієнт
Інтеграція	REST API → CRM (AmoCRM, Bitrix24)	Автоматичне збереження тексту

Додатково: код попередньої обробки, документація API, навчання операторів, гарантія 3 місяці. Ми маємо 5+ років досвіду в мовленнєвих технологіях та понад 30 впроваджень STT-систем.

Терміни та вартість

Базова автотранскрибація — 3–5 днів. З діаризацією та інтеграцією в CRM — 2–3 тижні. Вартість пілотного проекту розраховується індивідуально. Вартість повного впровадження також визначається після аналізу вашої інфраструктури.

Автоматичне розпізнавання мовлення — ключова технологія, на якій будується рішення. Отримайте консультацію: розкажіть про вашу телефонію, і ми запропонуємо оптимальний варіант. Замовте пілот на 100 дзвінках.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.