Які формати аудіо підтримуються для транскрибації?

Підтримуються WAV, MP3, OGG, AMR. На сервері ffmpeg конвертує будь-який формат у 16kHz моно MP3 32kbps — оптимальний для Whisper. OGG Opus з Telegram обробляється без конвертації.

Як зменшити затримку транскрипції?

Використовуйте явне вказання мови в запиті до Whisper — це виключає початкову детекцію. Для real-time сценаріїв підійде Deepgram Nova-2 (латентність <300 мс) або локальний faster-whisper на GPU. На iOS для коротких записів можна використовувати SFSpeechRecognizer.

Чи можна отримати таймстампи для кожного слова?

Так, через Whisper з параметрами response_format=verbose_json та timestamp_granularities=["word"]. Це дозволяє зробити текст інтерактивним: натискання на слово перемотує аудіо до цього моменту.

Як обробляються фонові шуми та музика?

Whisper іноді вставляє нотації [Музика] або [Noise]. Після транскрипції ми фільтруємо їх регулярними виразами. Для бізнес-сценаріїв додатково застосовуємо LLM-постобробку для виправлення імен та пунктуації.

Скільки часу займає впровадження транскрибації?

Базова версія з простим текстовим виведенням — 1-2 тижні. Повноцінне рішення з інтерактивним текстом, таймстампами, стрімінгом та постобробкою — 3-4 тижні.

Які формати аудіо підтримуються для транскрибації?

Підтримуються WAV, MP3, OGG, AMR. На сервері ffmpeg конвертує будь-який формат у 16kHz моно MP3 32kbps — оптимальний для Whisper. OGG Opus з Telegram обробляється без конвертації.

Як зменшити затримку транскрипції?

Використовуйте явне вказання мови в запиті до Whisper — це виключає початкову детекцію. Для real-time сценаріїв підійде Deepgram Nova-2 (латентність <300 мс) або локальний faster-whisper на GPU. На iOS для коротких записів можна використовувати SFSpeechRecognizer.

Чи можна отримати таймстампи для кожного слова?

Так, через Whisper з параметрами response_format=verbose_json та timestamp_granularities=["word"]. Це дозволяє зробити текст інтерактивним: натискання на слово перемотує аудіо до цього моменту.

Як обробляються фонові шуми та музика?

Whisper іноді вставляє нотації [Музика] або [Noise]. Після транскрипції ми фільтруємо їх регулярними виразами. Для бізнес-сценаріїв додатково застосовуємо LLM-постобробку для виправлення імен та пунктуації.

Скільки часу займає впровадження транскрибації?

Базова версія з простим текстовим виведенням — 1-2 тижні. Повноцінне рішення з інтерактивним текстом, таймстампами, стрімінгом та постобробкою — 3-4 тижні.

AI-транскрибація голосових повідомлень у мобільному застосунку

Q: Чи можна отримати таймстампи для кожного слова?

Так, через Whisper з параметрами response_format=verbose_json та timestamp_granularities=["word"]. Це дозволяє зробити текст інтерактивним: натискання на слово перемотує аудіо до цього моменту.

Q: Як обробляються фонові шуми та музика?

Whisper іноді вставляє нотації [Музика] або [Noise]. Після транскрипції ми фільтруємо їх регулярними виразами. Для бізнес-сценаріїв додатково застосовуємо LLM-постобробку для виправлення імен та пунктуації.

Q: Скільки часу займає впровадження транскрибації?

Базова версія з простим текстовим виведенням — 1-2 тижні. Повноцінне рішення з інтерактивним текстом, таймстампами, стрімінгом та постобробкою — 3-4 тижні.

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми

Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори

Мобільні програми електронної комерції

Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи

Мобільні програми для управління бізнес-процесами

CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних

Мобільні програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1734 послуг

AI-транскрибація голосових повідомлень у мобільному застосунку

Простий

~2-3 дні

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка мобільного додатка для компанії FEEDME
858
Розробка мобільного додатку для компанії XOOMER
746
Розробка мобільного додатку для компанії RHL
1162
Розробка мобільного додатку для компанії ZIPPY
1034
Розробка мобільного додатку для компанії Affhome
969
Розробка мобільного додатку для компанії FLAVORS
563

Показати більше робіт

Транскрибація голосових повідомлень — послуга, яку ми впроваджуємо в мобільні застосунки. Голосові повідомлення — найнезручніший формат для швидкого отримання інформації. Особливо в корпоративному листуванні: хвилинний войс замість одного рядка тексту. Ми вирішуємо цю проблему транскрибацією голосових повідомлень: захоплення аудіо, Whisper API/Deepgram, інтерактивний текст з таймстампами. Користувач говорить — застосунок перетворює мовлення на текст з точністю до 95%. При цьому текст синхронізований з аудіо: можна натиснути на будь-яке слово і прослухати його. Технічно це означає інтеграцію з Whisper API або локальними рішеннями, реалізацію захоплення аудіо Swift Kotlin, конвертацію в оптимальний формат (16 kHz моно MP3 32 kbps), відправлення на сервер і отримання транскрипту з таймстампами кожні 200–300 мс. Потім — постобробка транскрипту, фільтрація шумових нотацій і відображення в інтерактивній транскрипції. Весь цикл від натискання кнопки до видимого тексту займає від 0.5 до 3 секунд залежно від довжини запису. Один із наших проєктів у фінтехі показав скорочення часу обробки протоколів нарад на 60% — економія склала $5000 на місяць.

Як відбувається захоплення аудіо в застосунку?

На практиці мобільний застосунок працює з двома шляхами:

Запис всередині застосунку. Користувач записує прямо у вашому застосунку — нативне захоплення, повний контроль над форматом. Ми використовуємо AVAudioRecorder на iOS та MediaRecorder на Android.

Імпорт зовнішнього файлу. Отримали WAV/MP3/OGG з месенджера через share sheet. На iOS — UTType.audio в UIDocumentPickerViewController. На Android — ACTION_GET_CONTENT з "audio/*".

Формат файлу має значення. OGG Opus (формат Telegram) Whisper розуміє нативно. AMR (старі Android-месенджери) — потрібна конвертація. На сервері ffmpeg вирішує конвертацію будь-якого формату:

import subprocess

def convert_to_mp3(input_path: str, output_path: str) -> None:
    subprocess.run([
        "ffmpeg", "-i", input_path,
        "-ar", "16000",      # 16kHz достатньо для мовлення
        "-ac", "1",          # моно
        "-b:a", "32k",       # 32kbps для мовлення
        output_path
    ], check=True)

16kHz моно MP3 32kbps — оптимум для Whisper: якість не падає, розмір файлу мінімальний.

Чому Whisper API — не єдиний варіант?

Whisper API: 10-секундне повідомлення обробляється за 0.5–1.5 с. 1-хвилинне — 3–8 с. Це час обробки на серверах OpenAI + мережа. Для користувача непогано, якщо показувати прогрес.

Deepgram Nova-2 — real-time streaming транскрипція, latency < 300 мс на коротких фрагментах. Дорожче Whisper, але швидше.

Локальний Whisper (self-hosted). faster-whisper на GPU (RTX 3090) обробляє 1 хвилину аудіо за 2–4 секунди. На CPU — 15–30 секунд. Якщо дані не можна відправляти в хмару — єдиний варіант.

Клієнтська транскрипція на iOS. SFSpeechRecognizer — нативний Apple Speech framework, працює на пристрої (з iOS 16), безкоштовний, не вимагає відправки даних. Але: підтримує лише обмежений набір мов, якість нижче Whisper, ліміт 1 хвилина на запит.

// iOS — локальна транскрипція через SFSpeechRecognizer
let recognizer = SFSpeechRecognizer(locale: Locale(identifier: "ru-RU"))
let request = SFSpeechURLRecognitionRequest(url: audioURL)
request.shouldReportPartialResults = true

recognizer?.recognitionTask(with: request) { result, error in
    guard let result else { return }
    DispatchQueue.main.async {
        self.transcriptText = result.bestTranscription.formattedString
    }
}

Для коротких особистих нотаток SFSpeechRecognizer — хороший варіант без серверних витрат. Для корпоративних записів нарад — Whisper або Deepgram. За якістю розпізнавання мовлення iOS Android краще використовувати Whisper API, який у 2-3 рази якісніше за SFSpeechRecognizer за складних аудіо.

Порівняння способів транскрибації

Спосіб	Латентність Whisper	Якість	Вартість	Приватність
Whisper API	0.5–8 с	Відмінна	Плата за хвилину	Дані йдуть на сервер
Deepgram Nova-2	<300 мс	Відмінна	Вище	Дані йдуть на сервер
Локальний Whisper (GPU)	2–4 с на хвилину	Відмінна	Тільки залізо	Повна локальність
SFSpeechRecognizer (iOS)	миттєво	Середня	Безкоштовно	Повна локальність

Як відобразити транскрипт з таймстампами?

Проста транскрипція — просто текст. Хороша транскрипція на мобільному:

Інтерактивний текст з таймстампами слів: натиснув слово → аудіо стрибає до цього моменту
Пунктуація (Whisper відновлює її добре, але не ідеально — іноді потрібна постобробка)
Параграфи по паузах (Whisper сегментує аудіо — використовуємо segments для розбивки)
Кнопка копіювання всього тексту
Пошук по тексту транскрипту

Для месенджер-функціональності: транскрипт з'являється стрімінгово — не чекаємо повного завершення, а показуємо по мірі готовності сегментів.

Постобробка транскрипту

Whisper іноді вставляє [Музика], [Аплодисменти] у нотації Whisper, транскрибує фоновий шум. Фільтруємо:

import re

def clean_transcript(text: str) -> str:
    # Видаляємо нотації Whisper типу [Музика], [Noise]
    text = re.sub(r'\[.*?\]', '', text)
    # Прибираємо зайві пробіли
    text = re.sub(r'\s+', ' ', text).strip()
    return text

Для бізнес-сценаріїв корисна LLM-постобробка: виправлення власних назв, термінів, додавання пунктуації там, де Whisper помилився.

Що входить в роботу

Вихідний код модуля транскрибації для iOS та Android
Документація по архітектурі та REST API (якщо серверна частина)
Доступи до сервісів (OpenAI, Deepgram) з готовими ключами
Навчання команди та консультації на етапі інтеграції
Підтримка 24/7 після запуску

Як впровадити транскрибацію: покроковий план

Аналіз — обговорюємо сценарії використання, стек, вимоги до latency та приватності.
Проектування — архітектура захоплення, транскрибації та відображення.
Реалізація — інтеграція Whisper/Deepgram, код для iOS/Android, серверна конвертація.
Тестування — перевірка на реальних записах, оптимізація під ваш кейс.
Деплой — викладка в App Store та Google Play, налаштування моніторингу.
Документація та навчання — передаємо код, інструкції, навчаємо команду.
Підтримка — гарантуємо стабільність 24/7 після запуску.

Строки та вартість

Етап	Строк
Захоплення аудіо + імпорт файлів	3–5 днів
Серверна транскрипція (Whisper) + прогрес	5–7 днів
Постобробка та форматування	2–3 дні
Мобільний UI з інтерактивним транскриптом	5–7 днів
Опціонально: стрімінг, локальний SFSpeechRecognizer	+3–5 днів

Базова транскрипція через Whisper з простим текстовим відображенням — 1–2 тижні. Повноцінний інструмент з інтерактивним текстом, таймстампами та постобробкою — 3–4 тижні. Вартість інтеграції — від $2000. Ми маємо 5+ років досвіду в розробці мобільних застосунків та 50+ успішних проектів. Оцінимо ваш проект безкоштовно. Замовте проект під ключ: ми реалізуємо за 1-4 тижні.

— Whisper API documentation (OpenAI)

Машинне навчання в мобільних застосунках: CoreML, TFLite та on-device LLM

Ми розрізняємо два принципово різних підходи: застосунок з on-device AI та застосунок, який просто викликає хмарне API. Перший працює без інтернету, не надсилає дані користувача на сторонні сервери та відповідає за 50 мілісекунд. Другий залежить від затримки мережі та тарифного плану. Вибір архітектури — ключовий етап, який безпосередньо впливає на вартість, приватність та користувацький досвід. Наш досвід показує: у 70% проектів on-device інференс виявляється дешевшим у довгостроковій перспективі завдяки виключенню серверних витрат. Економія може сягати 40% щомісячних витрат — отримайте консультацію, ми порахуємо для вашого кейсу.

Як вибрати між CoreML та TFLite для on-device інференсу?

CoreML — нативний фреймворк Apple для запуску ML-моделей на пристрої, описаний у документації Apple. Підтримує Neural Engine (A11 Bionic та новіші), GPU та CPU як fallback. Моделі конвертуються у формат .mlmodel через coremltools з PyTorch, ONNX або TensorFlow. Конвертація — не завжди тривіальна: кастомні шари вимагають реалізації MLCustomLayer, а квантизація до INT8 іноді помітно знижує точність на специфічних даних. Ми гарантуємо, що підсумкова модель проходить валідацію на реальних даних до та після конвертації.

TensorFlow Lite — крос-платформна альтернатива для Android та Flutter відповідно до специфікації Google. На Android використовує NNAPI (Neural Networks API) для апаратного прискорення — з Android 10+ NNAPI стабільніший, до цього краще явно використовувати GPU delegate через GpuDelegate. Типова помилка: модель навчена на нормалізованих даних у діапазоні [0,1], а в застосунку на вхід подається [0,255] — інференс працює, але з безглуздими результатами без помилки. Ми включаємо модуль автоматичної валідації вхідних даних у SDK.

Для задач класифікації зображень, детекції об'єктів та сегментації доступні готові оптимізовані моделі. YOLOv8 у CoreML форматі запускає детекцію кадру 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite з GPU delegate — близько 8 мс на Pixel 7 при класифікації.

Параметр	CoreML	TFLite
Платформи	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Апаратне прискорення	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Підтримка квантизації	FP16, INT8 (з coremltools)	FP16, INT8, dynamic range
Кастомні операції	Через MLCustomLayer (Swift)	Через делегати (Java/Kotlin)
Розмір бандла моделі	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Що робити, якщо потрібна генерація тексту на пристрої?

Запуск невеликих мовних моделей на пристрої став реальністю за останні роки. Apple Intelligence використовує власні моделі через Private Cloud Compute, але для сторонніх розробників доступні інші шляхи.

llama.cpp з Metal backend на iOS — робочий підхід для phi-3-mini (3.8B параметрів, 4-bit квантизація, ~2.3 ГБ). Інференс: 15–25 токенів/секунду на iPhone 15 Pro. Для інтеграції в Swift використовуємо Swift Package llama.swift або обгортку через C-інтерфейс llama.h. Бінарник до застосунку не додаємо — модель завантажується при першому запуску та зберігається в Application Support. Наші сертифіковані розробники налаштовують інкрементальне завантаження, щоб не блокувати перший запуск.

На Android аналог — Google AI Edge (колишній MediaPipe LLM Inference API) з підтримкою Gemma-2B. Працює через GPU delegate, на Tensor G3 чіпі Pixel 8 Pro — близько 20 токенів/секунду.

Порівняння LLM моделей для on-device

Модель	Параметри	Квантизація	Розмір	Швидкість (iPhone 15 Pro)
Phi-3-mini (Microsoft)	3.8B	4-bit	~2.3 ГБ	15-25 токенів/с
Gemma-2B (Google)	2B	4-bit	~1.2 ГБ	30-40 токенів/с
TinyLlama	1.1B	4-bit	~0.7 ГБ	60+ токенів/с

Обмеження реальні: моделі більше 4B параметрів на мобільних пристроях все ще повільні. Для складних задач міркування on-device LLM поступається GPT-4o за якістю. Гібридний підхід — on-device для коротких завдань та приватних даних, хмара для складних запитів — часто оптимальний. Оцінимо ваш кейс та запропонуємо баланс продуктивності та приватності — напишіть нам.

Інтеграція OpenAI API та інших хмарних моделей

Для сценаріїв, де cloud inference допустимий, інтеграція OpenAI, Anthropic або Google Gemini — це HTTP клієнт + streaming SSE. У Swift зручно через AsyncThrowingStream для стрімінгових відповідей. У Kotlin — через Flow.

Критично важливо: API-ключі ніколи не зберігаються в бандлі застосунку. Навіть обфускований ключ витягується з IPA за 10 хвилин через strings або frida. Правильна архітектура: мобільний застосунок → власний backend → OpenAI API. Backend контролює rate limiting, логує запити, захищає ключ.

Що входить у роботу (результати)

Навчена та квантизована модель під цільовий пристрій (документація за метриками)
SDK для інтеграції (Swift/Kotlin/Flutter) з прикладами виклику
Тести продуктивності на 3–5 реальних пристроях
Інструкція з оновлення моделі OTA
Підтримка при проходженні модерації App Store / Google Play (перевірка відповідності Guidelines 4.2, 5.1)
2 тижні технічної підтримки після релізу

Типовий пайплайн проекту

Аналіз завдання — вимірюємо latency, privacy, size, підтримувані пристрої.
Прототипування моделі — в Python, оцінка accuracy на цільових даних.
Конвертація та квантизація — під CoreML/TFLite з валідацією.
Інтеграція в застосунок — модель обгортається в сервісний шар (легко замінювати CoreML → TFLite → хмара).
Тестування — на реальних пристроях, вимір FPS, RAM, батареї.
Деплой — через TestFlight / Firebase App Distribution, моніторинг метрик.

Терміни: інтеграція готової CoreML/TFLite моделі — 1–2 тижні, розробка кастомної моделі з мобільною оптимізацією — від 6 тижнів, on-device LLM чат з персоналізацією — 4–8 тижнів.

Чому ми беремося за складні кейси?

10+ років досвіду в мобільній розробці, 50+ впроваджених AI/ML рішень, гарантія сумісності з актуальними версіями iOS та Android. Всі проекти проходять code review та навантажувальне тестування. У вартість вже входить підготовка документації для модерації та навчання вашої команди.

Зв'яжіться з нами — ми допоможемо вибрати архітектуру та впровадити ML у ваш застосунок під ключ. Замовте аудит наявного рішення — безкоштовно оцінимо потенціал економії серверних витрат. Отримайте консультацію експерта — напишіть нам сьогодні.