AI-система автоматичної генерації подкастів
Подкаст зі статті, новинного дайджесту або бази знань — за хвилини замість годин запису. Система бере текстовий контент, структурує його в розмовний нарив, синтезує голоси ведучих та збирає готовий аудіофайл з музичним оформленням.
Як це працює
Стек компонентів:
- Content Processor — LLM (GPT-4o / Claude 3.5) переписує вхідний текст у розмовний діалог. Промпт-система враховує формат: соло-нарив, діалог двох ведучих, інтерв'ю
- TTS Engine — ElevenLabs Multilingual v2, PlayHT 2.0 або Coqui XTTS-v2 (self-hosted). Клонування голосу за 3–5 хвилин аудіо-зразка для брендованого голосу
- Audio Post-Processing — loudness normalization (EBU R128 / -14 LUFS), noise reduction, динамічна компресія через librosa + ffmpeg
- Music & SFX Layer — джинглс, переходи, фонова музика через AudioGen або бібліотека royalty-free активів
Вхідні формати: текст (TXT, DOCX, PDF), URL статті, RSS-фід, JSON дані
Вихідні формати: MP3 (192kbps), WAV, AAC; RSS-фід для автоматичної публікації в Apple Podcasts / Spotify
4-тижневий конвеєр
Тижні 1–2: Налаштування LLM-конвеєру для переписування контенту. Клонування голосів ведучих (або відбір з бібліотеки). Налаштування TTS API.
Тижні 3–4: Audio post-processing pipeline. Автоматична публікація (RSS + Anchor/Buzzsprout API). Веб-інтерфейс для запуску генерації.
Застосування та метрики
Корпоративні подкасти зі внутрішніх матеріалів, новинні дайджести, освітній контент. Генерація одного 15-хвилинного епізоду займає 3–7 хвилин. Підтримка багатомовності: один контент — декілька мовних версій паралельно.
| Параметр | Значення |
|---|---|
| Швидкість генерації | ~5 хв на 15-хв. епізод |
| Підтримувані мови | 28+ (ElevenLabs) |
| Якість TTS | MOS 4.2–4.5/5 |
| Автопубліка ція | Apple Podcasts, Spotify, Google Podcasts |







