Як довго обробляється одна година подкасту?

На GPU RTX 3090 — 3–4 хвилини, на CPU — 30–40 хвилин. При регулярній обробці використовуємо хмарний інференс Whisper API зі швидкістю $0.006/хв.

Яка якість транскрибації?

Whisper large-v3 дає WER 4–8% на чистих студійних записах. На записах із шумом або акцентом точність може знижуватися, але ми адаптуємо модель під ваш контент.

Що входить у вартість?

Входить розробка пайплайну, інтеграція з вашим сайтом/CRM, документація та навчання команди. Підтримка після запуску — 1 місяць.

Як почати роботу?

Зв'яжіться з нами для оцінки вашого проєкту. Ми проаналізуємо аудіо, підберемо оптимальні моделі та запропонуємо рішення під ключ.

Як довго обробляється одна година подкасту?

На GPU RTX 3090 — 3–4 хвилини, на CPU — 30–40 хвилин. При регулярній обробці використовуємо хмарний інференс Whisper API зі швидкістю $0.006/хв.

Яка якість транскрибації?

Whisper large-v3 дає WER 4–8% на чистих студійних записах. На записах із шумом або акцентом точність може знижуватися, але ми адаптуємо модель під ваш контент.

Що входить у вартість?

Входить розробка пайплайну, інтеграція з вашим сайтом/CRM, документація та навчання команди. Підтримка після запуску — 1 місяць.

Як почати роботу?

Зв'яжіться з нами для оцінки вашого проєкту. Ми проаналізуємо аудіо, підберемо оптимальні моделі та запропонуємо рішення під ключ.

AI-система транскрибації та сумаризації подкастів під ключ

Q: Чи можна автоматизувати обробку нових епізодів?

Так, ми налаштовуємо RSS-моніторинг: новий епізод автоматично завантажується, транскрибується та публікується на сайті.

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

AI-система транскрибації та сумаризації подкастів під ключ

Простий

від 1 дня до 3 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

AI-система транскрибації та сумаризації подкастів під ключ

Вступ

Подкастери витрачають години на ручне розшифрування та підготовку шоунотів. Середній годинний епізод — близько 10 000 слів тексту. Навіть із сучасними ASR-системами Word Error Rate (WER) сягає 20% на записах із кількома спікерами. Ми використовуємо Whisper large-v3 від OpenAI: модель із 1550 мільйонами параметрів, навчена на 680 000 годин багатомовних даних. Вона знижує WER до 4–8% на чистих студійних записах, а після донавчання (fine-tuning) — до 3–5%. Зв'язка з GPT-4o дозволяє за 5–10 хвилин отримати готові шоуноти з часовими мітками.

Як Whisper large-v3 справляється з шумом?

Whisper large-v3 перевершує попередні версії завдяки архітектурі encoder-decoder з увагою на 128 токенів контексту. На зашумлених записах — вуличний шум, ехо, перехресні діалоги — модель стійкіша через навчання на синтетичних шумах. Для специфічних акцентів або радіоперешкод ми застосовуємо fine-tuning: донавчаємо модель на 1–2 годинах ваших даних з використанням LoRA-адаптерів. Це піднімає точність на 10–15% без перенавчання всієї моделі.

Чому варто автоматизувати сумаризацію?

Ручне написання шоунотів для одного подкасту може займати 2–3 години. GPT-4o з правильним chain-of-thought промптом справляється за 30 секунд, виділяючи до 10 ключових тем і генеруючи короткий опис. Скорочення витрат на редактуру — до 80% порівняно з наймом копірайтера. При цьому якість не поступається: модель враховує часові мітки та тематичні переходи.

Порівняння моделей транскрибації

Модель	WER (чисте аудіо)	Швидкість (1 год на GPU)	Особливості
Whisper large-v3	4–8%	3–4 хв	Найкраща точність, open-source
Google Speech-to-Text	10–15%	2–3 хв	Хороша інтеграція з GCP
Wav2Vec 2.0	12–18%	1–2 хв	Потребує донавчання під мову

Whisper large-v3 вдвічі точніший за Wav2Vec 2.0 за WER і обробляє аудіо тривалістю до 12 годин без втрати контексту. На відміну від Google API, модель можна розгорнути локально — повний контроль над даними та конфіденційність.

Детальний пайплайн обробки

Завантаження аудіофайлу або RSS-стрічки. Для RSS моніторинг налаштовано на опитування фіду кожні 6 годин.
Попередня обробка: нормалізація гучності (LUFS -16) та спектральне шумоподавлення через бібліотеку noisereduce.
Транскрибація Whisper large-v3 з параметрами language="ru", word_timestamps=True.
Діаризація спікерів через pyannote-audio: розділення на голоси, прив'язка до сегментів.
Генерація шоунотів через GPT-4o з промптом, що містить транскрипт (до 6000 токенів) та часові мітки.
Формування RSS-фіду з новими елементами та публікація через API вашої CMS.

import whisper
from openai import AsyncOpenAI

async def transcribe_and_summarize_podcast(audio_path: str) -> dict:
    # Транскрибація
    model = whisper.load_model("large-v3")
    result = model.transcribe(
        audio_path,
        language="ru",
        task="transcribe",
        verbose=False,
        word_timestamps=True
    )
    transcript = result["text"]
    segments = result["segments"]  # [{start, end, text}, ...]

    # Генерація shownotes через GPT-4o
    client = AsyncOpenAI()
    response = await client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "system",
            "content": "Створи shownotes для подкасту: короткий опис епізоду (3-5 речень), ключові теми списком, часові мітки для основних тем у форматі MM:SS."
        }, {
            "role": "user",
            "content": transcript[:6000]
        }]
    )

    # Часові мітки ключових тем
    chapters = extract_chapters(segments)

    return {
        "transcript": transcript,
        "shownotes": response.choices[0].message.content,
        "chapters": chapters,
        "duration_sec": segments[-1]["end"] if segments else 0
    }

def extract_chapters(segments: list) -> list[dict]:
    """Виділяємо тематичні блоки за паузами та семантикою"""
    chapters = []
    # Шукаємо паузи > 3 секунди як межі глав
    for i in range(1, len(segments)):
        gap = segments[i]["start"] - segments[i-1]["end"]
        if gap > 3.0:
            chapters.append({
                "timestamp": int(segments[i]["start"]),
                "text": segments[i]["text"][:80]
            })
    return chapters

Інтеграція з RSS-стрічкою

Для подкастів із регулярними випусками налаштовуємо RSS-моніторинг. Новий епізод автоматично завантажується, транскрибується, і шоуноти публікуються на сайті.

import feedparser
import httpx

async def process_podcast_feed(rss_url: str) -> list[dict]:
    feed = feedparser.parse(rss_url)
    results = []

    for entry in feed.entries[:5]:  # останні 5 епізодів
        audio_url = next(
            (enc.href for enc in entry.enclosures if enc.type.startswith("audio")),
            None
        )
        if not audio_url:
            continue

        async with httpx.AsyncClient() as client:
            audio_data = await client.get(audio_url)

        with open(f"/tmp/{entry.id}.mp3", "wb") as f:
            f.write(audio_data.content)

        result = await transcribe_and_summarize_podcast(f"/tmp/{entry.id}.mp3")
        result["title"] = entry.title
        result["published"] = entry.published
        results.append(result)

    return results

Що ви отримуєте?

Повний пайплайн транскрибації та сумаризації, готовий до продакшену. Включено: аналіз вашого контенту, вибір оптимальної моделі (Whisper large-v3 або fine-tuned версія), налаштування діаризації, інтеграція з вашим сайтом через RSS або API, документація в репозиторії, навчання команди. Підтримка після запуску — 1 місяць з гарантією стабільного WER не вище 10% після адаптації. Досвід команди — понад 7 років у NLP та 50+ реалізованих проєктів з обробки аудіо.

Типові помилки та як їх уникнути

Низька якість запису — головна причина високого WER. Використовуйте студійні мікрофони та уникайте реверберації. Для довгих епізодів (понад 2 години) контекстне вікно GPT-4o обмежене 128K токенів, тому ми розбиваємо аудіо на частини по 30 хвилин із перекриттям у 5 секунд для склейки. Алгоритм виділення глав за паузами потребує калібрування: ми налаштовуємо поріг тиші під ваш темп мовлення — від 2 до 4 секунд.

Строки та вартість

Розробка типового пайплайну займає від 1 до 4 тижнів. Вартість розраховується індивідуально після аналізу ваших записів — з урахуванням тривалості, частоти випусків та необхідних інтеграцій. Отримайте консультацію: зв'яжіться з нами для безкоштовної оцінки проєкту.

Ми гарантуємо стабільну роботу та точність. Оцінимо ваш проєкт і запропонуємо оптимальну архітектуру — пишіть, обговоримо деталі.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.