Реалізація AI-транскрибації аудіо/відеофайлів у мобільному додатку

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми
Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори
Мобільні програми електронної комерції
Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи
Мобільні програми для управління бізнес-процесами
CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних
Мобільні програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо
Показано 1 з 1Усі 1735 послуг
Реалізація AI-транскрибації аудіо/відеофайлів у мобільному додатку
Середній
~3-5 днів
Часті запитання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_mobile-applications_feedme_467_0.webp
    Розробка мобільного додатка для компанії FEEDME
    792
  • image_mobile-applications_xoomer_471_0.webp
    Розробка мобільного додатку для компанії XOOMER
    671
  • image_mobile-applications_rhl_428_0.webp
    Розробка мобільного додатку для компанії RHL
    1097
  • image_mobile-applications_zippy_411_0.webp
    Розробка мобільного додатку для компанії ZIPPY
    969
  • image_mobile-applications_affhome_429_0.webp
    Розробка мобільного додатку для компанії Affhome
    914
  • image_mobile-applications_flavors_409_0.webp
    Розробка мобільного додатку для компанії FLAVORS
    495

AI-трансгрипція аудіо/відеофайлів в мобільних додатках

Користувач завантажує запис зустрічі на 40 хвилин — чекає тексту. Якщо на сервер йде сирий MP4 вагою 300 МБ, а назад приходить JSON через 90 секунд, UX зламан ще до першого слова. Задача — вибудувати pipeline, в якому мобільний клієнт не просто відправляє файл, а бере участь у підготовці: нарізка, конвертація, чанкування — і отримує результат поступово, поки модель ще працює.

Де ломається наївна реалізація

Найчастіша помилка — відправляти файл цілком через звичайний URLSession.dataTask або OkHttp з дефолтними таймаутами. На великих файлах це або NSURLErrorTimedOut (-1001), або 413 з сервера, або OOM на Android при буферизації в пам'ять.

Другий граблі — формат. Whisper та більшість cloud-провайдерів приймають audio/wav, audio/mp3, audio/mp4, audio/ogg, але не всі кодеки всередину. Відеофайл .mov з кодеком pcm_s16le пройде, а .mov з ac3 — дасть 400 Bad Request без пояснень. На iOS демуксинг через AVAssetExportSession з пресетом AVAssetExportPresetAppleM4A вирішує 95% випадків. На Android — MediaExtractor + MediaCodec для декодування в PCM, потім MediaMuxer для упаковки в AAC.

Третя проблема — чанкування по часу без урахування тишини. Якщо різати по 60 секунд ровно, слово може попасти на границю, та трансгрипція розбиває його на два фрагменти. Використовуй VAD (Voice Activity Detection) для нарізки по паузам. На iOS є AVAudioSession + AVAudioEngine для аналізу сигналу, на Flutter — пакет voice_activity_detector поверх WebRTC VAD.

Як вибудовується pipeline на практиці

Підготовка файла на пристрої

// iOS: Видобути аудіодорожку з відео
let asset = AVURLAsset(url: videoURL)
let exportSession = AVAssetExportSession(asset: asset, presetName: AVAssetExportPresetAppleM4A)!
exportSession.outputFileType = .m4a
exportSession.outputURL = tempAudioURL
await exportSession.export()

Після експорту — розбивка на чанки по 25 МБ (ліміт Whisper API) з урахуванням VAD-границь. Кожен чанк завантажується через URLSession.uploadTask(with:fromFile:) з фоновою конфігурацією (URLSessionConfiguration.background), щоб завантаження продовжувалось при сворачиванні додатка.

На Android аналогічно: WorkManager з CoroutineWorker для фонової обробки, OkHttp з RequestBody.create через File, а не через ByteArray — це критично для економії пам'яті на пристроях з 2 ГБ RAM.

Стріммінг результату

Замість polling кожні N секунд — WebSocket або SSE. Якщо використовуєш власний бекенд поверх Whisper, сервер може стримити partial_transcript по мері обробки чанків. На клієнті це URLSessionWebSocketTask (iOS) або OkHttp WebSocket (Android), який додає рядки в StateFlow / @Published — UI оновлюється у реальному часі.

Для прямої інтеграції з OpenAI Whisper API стрімінгу немає — API синхронний. Тому при великому файлі розділяй на незалежні запити та мержи результати на клієнті за індексом чанка, а не за порядком відповідей (мережа не гарантує порядок).

Зберігання та постобробка

Сирий трансгрипт Whisper повертає segments з часовими мітками — це цінніше, ніж просто текст. Зберігай JSON з start, end, text для кожного сегменту: дозволяє реалізувати «тап на слово → перемотка аудіо».

Для постобробки — пунктуація та діаризація (хто говорив). Whisper не розділяє спікерів. Потрібен окремий крок: pyannote.audio через API або AssemblyAI з параметром speaker_labels: true. На клієнті просто мержиш два JSON по часовим мітках.

Вибір провайдера під задачу

Провайдер Точність (RU) Стріммінг Діаризація Ліміт файла
OpenAI Whisper Висока Ні Ні 25 МБ
AssemblyAI Середня Так Так 5 ГБ
Deepgram Nova-2 Висока Так Так Без ліміту
Google Speech-to-Text v2 Середня Так Так 1 ГБ
On-device (iOS CoreML) Середня Ні Ні Обмежено RAM

Для російської мови Whisper large-v3 заметно виграє у більшості на неформальній мові та технічному жаргоні. Deepgram Nova-2 з параметром language: ru — гарний варіант, якщо потрібен реалтайм.

Процес розробки

Починаємо з аудиту: формати файлів, середній розмір, мови, потрібна ли діаризація, вимоги до офлайн-роботи. Під це вибираємо провайдера та архітектуру pipeline.

Розробка йде поетапно: спочатку базовий upload + трансгрипція без оптимізацій, потім додаємо чанкування, фонову завантаження, стріммінг UI, постобробку. Кожен етап — окрема гілка з функціональним тестом на реальних пристроях (не симулятор — CoreML та MediaCodec ведуть себе по-різному на реальному залізі).

Термін від інтеграції простого Whisper API до повнофункціонального pipeline з діаризацією та фоновою завантаженням — від 2 до 6 тижнів залежно від платформи та вимог.