Как долго обрабатывается один час подкаста?

На GPU RTX 3090 — 3–4 минуты, на CPU — 30–40 минут. При регулярной обработке используем облачный инференс Whisper API со скоростью $0.006/мин.

Какое качество транскрибации?

Whisper large-v3 даёт WER 4–8% на чистых студийных записях. На записях с шумом или акцентом точность может снижаться, но мы адаптируем модель под ваш контент.

Что входит в стоимость?

Входит разработка пайплайна, интеграция с вашим сайтом/CRM, документация и обучение команды. Поддержка после запуска — 1 месяц.

Как начать работу?

Свяжитесь с нами для оценки вашего проекта. Мы проанализируем аудио, подберём оптимальные модели и предложим решение под ключ.

Как долго обрабатывается один час подкаста?

На GPU RTX 3090 — 3–4 минуты, на CPU — 30–40 минут. При регулярной обработке используем облачный инференс Whisper API со скоростью $0.006/мин.

Какое качество транскрибации?

Whisper large-v3 даёт WER 4–8% на чистых студийных записях. На записях с шумом или акцентом точность может снижаться, но мы адаптируем модель под ваш контент.

Что входит в стоимость?

Входит разработка пайплайна, интеграция с вашим сайтом/CRM, документация и обучение команды. Поддержка после запуска — 1 месяц.

Как начать работу?

Свяжитесь с нами для оценки вашего проекта. Мы проанализируем аудио, подберём оптимальные модели и предложим решение под ключ.

AI-система транскрибации и суммаризации подкастов под ключ

Q: Можно ли автоматизировать обработку новых эпизодов?

Да, мы настраиваем RSS-мониторинг: новый эпизод автоматически скачивается, транскрибируется и публикуется на сайте.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

AI-система транскрибации и суммаризации подкастов под ключ

Простой

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
956
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Вступление

Подкастеры тратят часы на ручную расшифровку и подготовку шоунотов. Средний часовой эпизод — около 10 000 слов текста. Даже с современными ASR-системами Word Error Rate (WER) достигает 20% на записях с несколькими спикерами. Мы используем Whisper large-v3 от OpenAI: модель с 1550 миллионами параметров, обученная на 680 000 часов многоязычных данных. Она снижает WER до 4–8% на чистых студийных записях, а после дообучения (fine-tuning) — до 3–5%. Связка с GPT-4o позволяет за 5–10 минут получить готовые шоуноты с временными метками.

Как Whisper large-v3 справляется с шумом?

Whisper large-v3 превосходит предыдущие версии благодаря архитектуре encoder-decoder с вниманием на 128 токенов контекста. На зашумлённых записях — уличный шум, эхо, перекрёстные диалоги — модель устойчивее за счёт обучения на синтетических шумах. Для специфических акцентов или радиопомех мы применяем fine-tuning: дообучаем модель на 1–2 часах ваших данных с использованием LoRA-адаптеров. Это поднимает точность на 10–15% без переобучения всей модели.

Почему стоит автоматизировать суммаризацию?

Ручное написание шоунотов для одного подкаста может занимать 2–3 часа. GPT-4o с правильным chain-of-thought промптом справляется за 30 секунд, выделяя до 10 ключевых тем и генерируя краткое описание. Сокращение затрат на редактуру — до 80% по сравнению с наймом копирайтера. При этом качество не уступает: модель учитывает временные метки и тематические переходы.

Сравнение моделей транскрибации

Модель	WER (чистое аудио)	Скорость (1 час на GPU)	Особенности
Whisper large-v3	4–8%	3–4 мин	Лучшая точность, open-source
Google Speech-to-Text	10–15%	2–3 мин	Хорошая интеграция с GCP
Wav2Vec 2.0	12–18%	1–2 мин	Требует дообучения под язык

Whisper large-v3 в два раза точнее Wav2Vec 2.0 по WER и обрабатывает аудио длиной до 12 часов без потери контекста. В отличие от Google API, модель можно развернуть локально — полный контроль над данными и конфиденциальность.

Детальный пайплайн обработки

Загрузка аудиофайла или RSS-ленты. Для RSS мониторинг настроен на опрос фида каждые 6 часов.
Предобработка: нормализация громкости (LUFS -16) и спектральное шумоподавление через библиотеку noisereduce.
Транскрибация Whisper large-v3 с параметрами language="ru", word_timestamps=True.
Диаризация спикеров через pyannote-audio: разделение на голоса, привязка к сегментам.
Генерация шоунотов через GPT-4o с промптом, содержащим транскрипт (до 6000 токенов) и временные метки.
Формирование RSS-фида с новыми элементами и публикация через API вашей CMS.

import whisper
from openai import AsyncOpenAI

async def transcribe_and_summarize_podcast(audio_path: str) -> dict:
    # Транскрибация
    model = whisper.load_model("large-v3")
    result = model.transcribe(
        audio_path,
        language="ru",
        task="transcribe",
        verbose=False,
        word_timestamps=True
    )
    transcript = result["text"]
    segments = result["segments"]  # [{start, end, text}, ...]

    # Генерация shownotes через GPT-4o
    client = AsyncOpenAI()
    response = await client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "system",
            "content": "Создай shownotes для подкаста: краткое описание эпизода (3-5 предложений), ключевые темы списком, временные метки для основных тем в формате MM:SS."
        }, {
            "role": "user",
            "content": transcript[:6000]
        }]
    )

    # Временные метки ключевых тем
    chapters = extract_chapters(segments)

    return {
        "transcript": transcript,
        "shownotes": response.choices[0].message.content,
        "chapters": chapters,
        "duration_sec": segments[-1]["end"] if segments else 0
    }

def extract_chapters(segments: list) -> list[dict]:
    """Выделяем тематические блоки по паузам и семантике"""
    chapters = []
    # Ищем паузы > 3 секунды как границы глав
    for i in range(1, len(segments)):
        gap = segments[i]["start"] - segments[i-1]["end"]
        if gap > 3.0:
            chapters.append({
                "timestamp": int(segments[i]["start"]),
                "text": segments[i]["text"][:80]
            })
    return chapters

Интеграция с RSS-лентой

Для подкастов с регулярными выпусками настраиваем RSS-мониторинг. Новый эпизод автоматически скачивается, транскрибируется, и шоуноты публикуются на сайте.

import feedparser
import httpx

async def process_podcast_feed(rss_url: str) -> list[dict]:
    feed = feedparser.parse(rss_url)
    results = []

    for entry in feed.entries[:5]:  # последние 5 эпизодов
        audio_url = next(
            (enc.href for enc in entry.enclosures if enc.type.startswith("audio")),
            None
        )
        if not audio_url:
            continue

        async with httpx.AsyncClient() as client:
            audio_data = await client.get(audio_url)

        with open(f"/tmp/{entry.id}.mp3", "wb") as f:
            f.write(audio_data.content)

        result = await transcribe_and_summarize_podcast(f"/tmp/{entry.id}.mp3")
        result["title"] = entry.title
        result["published"] = entry.published
        results.append(result)

    return results

Что вы получаете?

Полный пайплайн транскрибации и суммаризации, готовый к продакшену. Включены: анализ вашего контента, выбор оптимальной модели (Whisper large-v3 или fine-tuned версия), настройка диаризации, интеграция с вашим сайтом через RSS или API, документация в репозитории, обучение команды. Поддержка после запуска — 1 месяц с гарантией стабильного WER не выше 10% после адаптации. Опыт команды — более 7 лет в NLP и 50+ реализованных проектов по обработке аудио.

Типичные ошибки и как их избежать

Низкое качество записи — главная причина высокого WER. Используйте студийные микрофоны и избегайте реверберации. Для длинных эпизодов (более 2 часов) контекстное окно GPT-4o ограничено 128K токенов, поэтому мы разбиваем аудио на части по 30 минут с перекрытием в 5 секунд для склейки. Алгоритм выделения глав по паузам требует калибровки: мы настраиваем порог тишины под ваш темп речи — от 2 до 4 секунд.

Сроки и стоимость

Разработка типового пайплайна занимает от 1 до 4 недель. Стоимость рассчитывается индивидуально после анализа ваших записей — учётом длительности, частоты выпусков и необходимых интеграций. Получите консультацию: свяжитесь с нами для бесплатной оценки проекта.

Мы гарантируем стабильную работу и точность. Оценим ваш проект и предложим оптимальную архитектуру — пишите, обсудим детали.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.