Что такое Deepgram и чем он отличается от других решений?

Deepgram — это ASR-сервис с поддержкой стриминга и моделью Nova-2, которая обеспечивает медианную задержку около 300 мс от конца фразы до текста. В отличие от Whisper, Deepgram работает в асинхронном режиме, что позволяет получать финальные результаты с задержкой менее секунды.

Какие платформы поддерживаются для интеграции Deepgram?

Deepgram можно интегрировать на iOS (через URLSessionWebSocketTask), Android (OkHttp WebSocket) и кроссплатформенные фреймворки (Flutter, React Native). Для захвата аудио используется AVAudioEngine на iOS и AudioRecord на Android.

Как обрабатывать interim результаты в мобильном приложении?

Interim-результаты отмечаются флагом is_final: false и должны отображаться серым или курсивом. При получении is_final: true нужно заменить все предыдущие interim этого utterance финальным текстом. Храните текущий interim-буфер и обновляйте его in-place, чтобы избежать дублирования.

Какие параметры Deepgram Nova-2 влияют на качество транскрибации?

Критичны параметры: model=Nova-2, encoding=linear16, sample_rate=16000, interim_results=true. Дополнительно: utterance_end_ms (финализация по паузе), diarize (разделение спикеров), punctuate (автопунктуация), smart_format (форматирование чисел/дат).

Что такое Deepgram и чем он отличается от других решений?

Deepgram — это ASR-сервис с поддержкой стриминга и моделью Nova-2, которая обеспечивает медианную задержку около 300 мс от конца фразы до текста. В отличие от Whisper, Deepgram работает в асинхронном режиме, что позволяет получать финальные результаты с задержкой менее секунды.

Какие платформы поддерживаются для интеграции Deepgram?

Deepgram можно интегрировать на iOS (через URLSessionWebSocketTask), Android (OkHttp WebSocket) и кроссплатформенные фреймворки (Flutter, React Native). Для захвата аудио используется AVAudioEngine на iOS и AudioRecord на Android.

Как обрабатывать interim результаты в мобильном приложении?

Interim-результаты отмечаются флагом is_final: false и должны отображаться серым или курсивом. При получении is_final: true нужно заменить все предыдущие interim этого utterance финальным текстом. Храните текущий interim-буфер и обновляйте его in-place, чтобы избежать дублирования.

Какие параметры Deepgram Nova-2 влияют на качество транскрибации?

Критичны параметры: model=Nova-2, encoding=linear16, sample_rate=16000, interim_results=true. Дополнительно: utterance_end_ms (финализация по паузе), diarize (разделение спикеров), punctuate (автопунктуация), smart_format (форматирование чисел/дат).

Транскрибация в мобильном приложении с Deepgram Nova-2

Q: Сколько времени занимает базовая интеграция Deepgram?

Базовая интеграция WebSocket + аудиозахват + вывод текста занимает 4–7 дней. Добавление диаризации, обработки переключения сети (reconnect), фонового режима и экспорта результата — ещё 8–14 дней.

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1734 услуг

Транскрибация в мобильном приложении с Deepgram Nova-2

Средний

~3-5 дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
858
Разработка мобильного приложения для компании XOOMER
746
Разработка мобильного приложения для компании RHL
1162
Разработка мобильного приложения для компании ZIPPY
1034
Разработка мобильного приложения для компании Affhome
969
Разработка мобильного приложения для компании FLAVORS
563

Показать больше работ

Представьте: пользователь говорит в микрофон, а текст появляется на экране с задержкой менее полусекунды. Это нетривиальная инженерная задача, но с Deepgram Nova-2 она решается. Модель даёт медианную задержку около 300 мс и WER около 5% на русском. Такие показатели недоступны классическим batch-решениям. В этой статье разберём, как настроить WebSocket-транскрибацию на iOS и Android, какие параметры критичны и как избежать типичных ошибок.

Типичные трудности — нестабильное соединение, дублирование interim-результатов, неправильная конфигурация аудиокодека. Наша команда с 10+ летним опытом внедрения ASR гарантирует стабильное соединение и низкую задержку. На реальном проекте клиент жаловался на дублирование interim: каждое новое слово добавлялось к предыдущему. После внедрения паттерна замены буфера проблема исчезла полностью.

Сравнение Deepgram Nova-2 и Whisper

Deepgram Nova-2 обеспечивает низкую задержку на стриминге: медиана около 300 мс от конца фразы до текста. Whisper такого не умеет в принципе — он синхронный. Если задача «пользователь говорит — текст появляется на экране» с задержкой меньше секунды, это Deepgram.

Характеристика	Deepgram Nova-2	Whisper (синхронный)
Задержка финала	300–500 мс	2–5 секунд
Стриминг	Асинхронный, потоковый	Синхронный, batch
Interim результаты	Да	Нет
Поддержка русского	Отлично	Хорошо
Цена (за час)	По запросу	Бесплатно (self-hosted)

Для мобильного сценария Deepgram выигрывает в 6–10 раз по скорости. Кроме того, Nova-2 показывает WER ≤5% на русском языке, в то время как Whisper large-v2 — около 7%.

Настройка протокола подключения

Deepgram работает через WebSocket. Endpoint:

wss://api.deepgram.com/v1/listen?model=nova-2&language=ru&encoding=linear16&sample_rate=16000&channels=1&interim_results=true

Параметры критичны: encoding=linear16 означает сырой PCM 16-bit little-endian. Любой другой формат без явного указания кодека — риск 1008 Policy Violation. interim_results=true включает частичные результаты — именно они создают ощущение реального времени.

iOS: AVAudioEngine + URLSessionWebSocketTask

class DeepgramStreamer {
    private var audioEngine = AVAudioEngine()
    private var webSocket: URLSessionWebSocketTask?

    func start() throws {
        let session = URLSession(configuration: .default)
        var request = URLRequest(url: URL(string: "wss://api.deepgram.com/v1/listen?model=nova-2&language=ru&encoding=linear16&sample_rate=16000&channels=1&interim_results=true")!)
        request.setValue("Token \(apiKey)", forHTTPHeaderField: "Authorization")
        webSocket = session.webSocketTask(with: request)
        webSocket?.resume()

        receiveLoop()

        let inputNode = audioEngine.inputNode
        let format = AVAudioFormat(commonFormat: .pcmFormatInt16, sampleRate: 16000, channels: 1, interleaved: false)!
        inputNode.installTap(onBus: 0, bufferSize: 4096, format: format) { buffer, _ in
            guard let channelData = buffer.int16ChannelData else { return }
            let frameLength = Int(buffer.frameLength)
            let data = Data(bytes: channelData[0], count: frameLength * 2)
            self.webSocket?.send(.data(data)) { _ in }
        }
        try audioEngine.start()
    }

    private func receiveLoop() {
        webSocket?.receive { [weak self] result in
            if case .success(let message) = result, case .string(let text) = message {
                // Decode Deepgram JSON response
                self?.handleTranscript(text)
            }
            self?.receiveLoop()
        }
    }
}

Важная деталь: AVAudioEngine.inputNode на iOS 16+ требует явного запроса микрофона через AVAudioSession.sharedInstance().requestRecordPermission. И обязательно AVAudioSession.setCategory(.record, mode: .measurement) — режим .measurement отключает AEC и AGC, которые могут исказить сигнал для транскрипции.

Android: AudioRecord + OkHttp WebSocket

class DeepgramStreamer(private val apiKey: String) {
    private val client = OkHttpClient()
    private var webSocket: WebSocket? = null
    private var audioRecord: AudioRecord? = null

    fun start(onTranscript: (String, Boolean) -> Unit) {
        val request = Request.Builder()
            .url("wss://api.deepgram.com/v1/listen?model=nova-2&language=ru&encoding=linear16&sample_rate=16000&channels=1&interim_results=true")
            .header("Authorization", "Token $apiKey")
            .build()

        webSocket = client.newWebSocket(request, object : WebSocketListener() {
            override fun onMessage(webSocket: WebSocket, text: String) {
                val json = JSONObject(text)
                val channel = json.getJSONObject("channel")
                val alternatives = channel.getJSONArray("alternatives")
                val transcript = alternatives.getJSONObject(0).getString("transcript")
                val isFinal = json.getBoolean("is_final")
                if (transcript.isNotEmpty()) onTranscript(transcript, isFinal)
            }
        })

        val bufferSize = AudioRecord.getMinBufferSize(16000, AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT)
        audioRecord = AudioRecord(MediaRecorder.AudioSource.MIC, 16000, AudioFormat.CHANNEL_IN_MONO, AudioFormat.ENCODING_PCM_16BIT, bufferSize)
        audioRecord?.startRecording()

        Thread {
            val buffer = ShortArray(bufferSize / 2)
            while (audioRecord?.recordingState == AudioRecord.RECORDSTATE_RECORDING) {
                val read = audioRecord!!.read(buffer, 0, buffer.size)
                if (read > 0) {
                    val byteBuffer = ByteBuffer.allocate(read * 2).order(ByteOrder.LITTLE_ENDIAN)
                    buffer.take(read).forEach { byteBuffer.putShort(it) }
                    webSocket?.send(byteBuffer.array().toByteString())
                }
            }
        }.start()
    }
}

ByteOrder.LITTLE_ENDIAN обязателен. Deepgram ожидает LE PCM. Если отправить BE, транскрипция будет работать, но с заметно худшим качеством.

Как избежать типичных ошибок при стриминге аудио?

Дублирование interim: никогда не накапливайте все interim как отдельные строки. Храните текущий utterance в буфере и перезаписывайте его при каждом новом interim. При is_final: true финализируйте буфер.
Потеря соединения: внедрите reconnect с экспоненциальной задержкой (1,2,4,8 сек). Deepgram не поддерживает возобновление сессии, поэтому после reconnect нужно начать новый поток.
Неправильная частота дискретизации: используйте строго 16000 Гц. Более высокая частота увеличивает трафик без выигрыша в качестве, более низкая — ухудшает распознавание.

Обработка interim-результатов

Deepgram возвращает два типа сообщений: с is_final: false (interim) и is_final: true (финальный). Правильный паттерн UI:

Interim отображаем серым или курсивом — пользователь видит, что идёт распознавание
При получении is_final: true заменяем все предыдущие interim этого utterance финальным текстом
speech_final: true означает конец паузы — хороший момент для начала обработки фразы

Параметры Nova-2, которые меняют качество

Параметр	Значение	Описание
model	nova-2	Модель распознавания
encoding	linear16	Кодирование аудио
sample_rate	16000	Частота дискретизации
interim_results	true	Включить частичные результаты
utterance_end_ms	1000	Финализация по паузе
diarize	false	Разделение дикторов
punctuate	true	Автоматическая пунктуация
smart_format	true	Форматирование чисел и дат

utterance_end_ms: 1000 — Deepgram сам финализирует utterance после 1 секунды тишины. Полезно для диктовки без явных команд «стоп».
diarize: true — разделение по спикерам, добавляет speaker в каждый word.
punctuate: true — автопунктуация. Без неё текст идёт без точек и запятых.
smart_format: true — форматирует числа, даты, телефоны. «двадцать пятое марта» → «25 марта».

Что входит в работу

Настройка WebSocket-подключения с авторизацией
Захват аудио через AVAudioEngine / AudioRecord с правильным форматом
Обработка interim и финальных результатов без дублирования
Reconnect при обрыве сети с экспоненциальной задержкой
Тестирование на реальных устройствах (iOS/Android)
Документация и обучение команды

Процесс работы

Анализ — изучаем архитектуру приложения и требования к транскрибации
Проектирование — выбираем модель, протокол, параметры
Реализация — кодовая интеграция WebSocket, аудиозахват, UI
Тестирование — нагрузочное тестирование, проверка на разных устройствах и сетях
Деплой — публикация в App Store и Google Play

Сроки

Базовая интеграция WebSocket + AudioRecord/AVAudioEngine + вывод текста — 4–7 дней. Добавление диаризации, обработки переключения сети (reconnect), фонового режима, экспорта результата — 8–14 дней.

Экономия на разработке собственного ASR-движка может достигать 70%. Стоимость транскрибации низкая — значительно дешевле альтернатив с batch-обработкой.

Получите консультацию по интеграции Deepgram для вашего мобильного проекта. Мы проанализируем архитектуру, подберём оптимальную конфигурацию и реализуем low-latency транскрибацию под ключ. Закажите демо-версию с низкой задержкой уже сегодня. Свяжитесь с нами для обсуждения вашего проекта.

Интеграция Deepgram позволила нам сократить задержку транскрибации с 5 секунд до 300 мс — отзыв клиента из финансового сектора.

AI и ML в мобильных приложениях: CoreML, TFLite и on-device модели

Мы различаем два принципиально разных подхода: приложение с on-device AI и приложение, которое просто вызывает облачное API. Первое работает без интернета, не отправляет данные пользователя на сторонние серверы и отвечает за 50 миллисекунд. Второе зависит от задержки сети и тарифного плана. Выбор архитектуры — ключевой этап, который напрямую влияет на стоимость, приватность и пользовательский опыт. Наш опыт показывает: в 70% проектов on-device инференс оказывается дешевле в долгосрочной перспективе за счёт исключения серверных затрат.

Как выбрать между CoreML и TFLite для on-device инференса?

CoreML — нативный фреймворк Apple для запуска ML-моделей на устройстве. Поддерживает Neural Engine (начиная с A11 Bionic), GPU и CPU как fallback. Модели конвертируются в формат .mlmodel через coremltools из PyTorch, ONNX или TensorFlow. Конвертация — не всегда тривиальна: кастомные слои требуют реализации MLCustomLayer, а квантизация до INT8 иногда заметно роняет точность на специфических данных. Мы гарантируем, что итоговая модель проходит валидацию на реальных данных до и после конвертации.

TensorFlow Lite — кросс-платформенная альтернатива для Android и Flutter. На Android использует NNAPI (Neural Networks API) для хардварного ускорения — с Android 10 NNAPI стабильнее, до этого лучше явно использовать GPU delegate через GpuDelegate. Типичная ошибка: модель обучена на нормализованных данных в диапазоне [0,1], а в приложении на вход подаётся [0,255] — инференс работает, но с бессмысленными результатами без ошибки. Мы включаем модуль автоматической валидации входных данных в SDK.

Для задач классификации изображений, детекции объектов и сегментации доступны готовые оптимизированные модели. YOLOv8 в CoreML формате запускает детекцию кадра 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite с GPU delegate — около 8 мс на Pixel 7 при классификации.

Параметр	CoreML	TFLite
Платформы	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Хардварное ускорение	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Поддержка квантизации	FP16, INT8 (с coremltools)	FP16, INT8, dynamic range
Кастомные операции	Через MLCustomLayer (Swift)	Через делегаты (Java/Kotlin)
Размер бандла модели	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Что делать, если нужна генерация текста на устройстве?

Запуск небольших языковых моделей на устройстве стал реальностью в последние несколько лет. Apple Intelligence использует собственные модели через Private Cloud Compute, но для сторонних разработчиков доступны другие пути.

llama.cpp с Metal backend на iOS — работающий подход для phi-3-mini (3.8B параметров, 4-bit квантизация, ~2.3 ГБ). Инференс: 15–25 токенов/секунду на iPhone 15 Pro. Для интеграции в Swift используем Swift Package llama.swift или обёртку через C-интерфейс llama.h. Бинарник к приложению не прикладываем — модель скачивается при первом запуске и хранится в Application Support. Наши сертифицированные разработчики настраивают инкрементальную загрузку, чтобы не блокировать первый запуск.

На Android аналог — Google AI Edge (бывший MediaPipe LLM Inference API) с поддержкой Gemma-2B. Работает через GPU delegate, на Tensor G3 чипе Pixel 8 Pro — около 20 токенов/секунду.

Ограничения реальны: модели больше 4B параметров на мобильных устройствах по-прежнему медленны. Для сложных задач рассуждения on-device LLM уступает GPT-4o в качестве. Гибридный подход — on-device для коротких задач и приватных данных, облако для сложных запросов — часто оптимален. Оценим ваш кейс и предложим баланс производительности и приватности — пишите.

Интеграция OpenAI API и других облачных моделей

Для сценариев, где cloud inference допустим, интеграция OpenAI, Anthropic или Google Gemini — это HTTP клиент + streaming SSE. В Swift удобно через AsyncThrowingStream для стриминговых ответов. В Kotlin — через Flow.

Критически важно: API-ключи никогда не хранятся в бандле приложения. Даже обфусцированный ключ извлекается из IPA за 10 минут через strings или frida. Правильная архитектура: мобильное приложение → собственный backend → OpenAI API. Backend контролирует rate limiting, логирует запросы, защищает ключ.

Что входит в работу (deliverables)

Обученная и квантизированная модель под целевое устройство (документация по метрикам)
SDK для интеграции (Swift/Kotlin/Flutter) с примерами вызова
Тесты производительности на 3–5 реальных устройствах
Инструкция по обновлению модели OTA
Поддержка при прохождении модерации App Store / Google Play (проверка соответствия Guidelines 4.2, 5.1)
2 недели технической поддержки после релиза

Типичный пайплайн проекта

Анализ задачи — замеряем latency, privacy, size, поддерживаемые устройства.
Прототипирование модели — в Python, оценка accuracy на целевых данных.
Конвертация и квантизация — под CoreML/TFLite с валидацией.
Интеграция в приложение — модель оборачивается в сервисный слой (легко подменять CoreML → TFLite → облако).
Тестирование — на реальных девайсах, замер FPS, RAM, батареи.
Деплой — через TestFlight / Firebase App Distribution, мониторинг метрик.

Сроки: интеграция готовой CoreML/TFLite модели — 1–2 недели, разработка кастомной модели с мобильной оптимизацией — от 6 недель, on-device LLM чат с персонализацией — 4–8 недель.

Почему мы беремся за сложные кейсы?

10+ лет опыта в мобильной разработке, 50+ внедрённых AI/ML решений, гарантия совместимости с актуальными версиями iOS и Android. Все проекты проходят code review и нагрузочное тестирование. В стоимость уже входит подготовка документации для модерации и обучение вашей команды.

Свяжитесь с нами — мы поможем выбрать архитектуру и внедрить ML в ваше приложение под ключ. Закажите аудит существующего решения — бесплатно оценим потенциал экономии серверных затрат (в некоторых проектах экономия достигает $10k в месяц).