Реализация AI-шумоподавления (Noise Cancellation) для звонков в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения
Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы
Мобильные приложения электронной коммерции
Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы
Мобильные приложения для управления бизнес-процессами
CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных
Мобильные приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем
Показано 1 из 1Все 1735 услуг
Реализация AI-шумоподавления (Noise Cancellation) для звонков в мобильном приложении
Сложный
~1-2 недели
Часто задаваемые вопросы

Наши компетенции:

Этапы разработки

Последние работы

  • image_mobile-applications_feedme_467_0.webp
    Разработка мобильного приложения для компании FEEDME
    792
  • image_mobile-applications_xoomer_471_0.webp
    Разработка мобильного приложения для компании XOOMER
    671
  • image_mobile-applications_rhl_428_0.webp
    Разработка мобильного приложения для компании RHL
    1097
  • image_mobile-applications_zippy_411_0.webp
    Разработка мобильного приложения для компании ZIPPY
    969
  • image_mobile-applications_affhome_429_0.webp
    Разработка мобильного приложения для компании Affhome
    914
  • image_mobile-applications_flavors_409_0.webp
    Разработка мобильного приложения для компании FLAVORS
    495

Реализация AI-шумоподавления (Noise Cancellation) для звонков в мобильном приложении

При открытии микрофона через AVAudioSession на iOS или AudioRecord на Android вы получаете сырой PCM-поток — со всем, что находится вокруг пользователя. Строительные работы за окном, кофемашина, дети — всё это идёт в вызов. Стандартный Acoustic Echo Cancellation (AEC) из WebRTC убирает эхо, но не фоновый шум. Здесь нужна ML-модель подавления.

Чем отличается AI-шумоподавление от стандартного DSP

Классический подход — спектральное вычитание или Wiener filter: модель шума оценивается в паузах речи, затем вычитается из спектра. Работает для стационарного шума (гул вентилятора), ломается на нестационарном (голос в метро, клавиатура рядом).

AI-подход — нейросеть, обученная на парах «чистая речь + шумная речь», предсказывает маску для каждого фрейма спектрограммы. Модели уровня RNNoise, DTLN или DistilledRNNoise работают в реальном времени, обрабатывая 10–20 мс фреймы с латентностью менее одного фрейма.

RNNoise: быстрый старт на обеих платформах

RNNoise от Mozilla — C-библиотека, 90 KB, ~2 MFLOPS на фрейм. Компилируется в статическую библиотеку для iOS (xcframework) и Android (AAR с нативной частью через NDK).

// Инициализация
DenoiseState *st = rnnoise_create(NULL);

// Обработка фрейма (480 сэмплов = 10 мс при 48 kHz)
float frame[480];
// ... заполнить из буфера микрофона
float vad_prob = rnnoise_process_frame(st, frame, frame);
// frame теперь содержит очищенный сигнал
// vad_prob > 0.5 — вероятно речь

Интеграция в iOS: AVAudioEngine с кастомным AVAudioSinkNode или tap на входной ноде. Формат — Float32, 48 kHz, mono. AVAudioSession нужно настроить с mode: .voiceChat и явно отключить системную обработку, иначе iOS применяет собственный noise reduction поверх вашего.

let inputNode = audioEngine.inputNode
let format = inputNode.outputFormat(forBus: 0)

inputNode.installTap(onBus: 0, bufferSize: 480, format: format) { [weak self] buffer, _ in
    guard let self = self else { return }
    let channelData = buffer.floatChannelData![0]
    // Передаём в rnnoise_process_frame через C-bridge
    self.rnnoiseProcessor.process(channelData, frameLength: Int(buffer.frameLength))
}

На Android — AudioRecord с AudioFormat.ENCODING_PCM_FLOAT, размер буфера 480 сэмплов, обработка в отдельном потоке с Process.THREAD_PRIORITY_URGENT_AUDIO. Через JNI вызываем ту же C-библиотеку.

DTLN и более тяжёлые модели

Если RNNoise недостаточно (сложный многокомпонентный шум, несколько источников), используем DTLN — двухстадийная LSTM-модель. Конвертируется в TFLite (Android) или Core ML (iOS).

На практике: DTLN при 16 kHz занимает 8–14 мс на фрейм на iPhone 12, что укладывается в реальное время. На Android Snapdragon 778G — аналогично. На бюджетных Helio G85 — 25–35 мс, что создаёт накопительную задержку.

Для мобильного применения важен выбор частоты дискретизации: 16 kHz вместо 48 kHz сокращает вычислительную нагрузку вчетверо, а для речи полосы до 8 kHz достаточно для разборчивости.

Интеграция в WebRTC

WebRTC SDK (LiveKit, Agora, Daily) предоставляют AudioProcessingModule или hook до энкодирования. В нативном WebRTC для iOS — кастомный RTCAudioProcessingModule:

// Регистрируем кастомный процессинг
let config = RTCConfiguration()
// Создаём RTCPeerConnectionFactory с кастомным AudioDeviceModule
// или используем AudioProcessingConfig для WebRTC built-in замены

Важный нюанс: WebRTC уже содержит AECM и NS (Noise Suppression). При включении собственного AI-шумоподавления нужно отключить встроенный NS через AudioProcessingConfig, иначе двойная обработка создаёт артефакты — «металлический» звук, срезанные согласные.

Процесс

Аудит аудиопайплайна приложения, выбор модели под требования (латентность vs качество), компиляция нативной библиотеки под целевые архитектуры (arm64, x86_64 для симулятора), интеграция в существующий аудиостек, тестирование на реальных шумах.

Ориентиры по срокам

Интеграция RNNoise в существующий WebRTC-стек — 1–2 недели. Реализация с DTLN/TFLite, настройка VAD, поддержка двух платформ — 3–5 недель.