Реализация AI-шумоподавления (Noise Cancellation) для звонков в мобильном приложении
При открытии микрофона через AVAudioSession на iOS или AudioRecord на Android вы получаете сырой PCM-поток — со всем, что находится вокруг пользователя. Строительные работы за окном, кофемашина, дети — всё это идёт в вызов. Стандартный Acoustic Echo Cancellation (AEC) из WebRTC убирает эхо, но не фоновый шум. Здесь нужна ML-модель подавления.
Чем отличается AI-шумоподавление от стандартного DSP
Классический подход — спектральное вычитание или Wiener filter: модель шума оценивается в паузах речи, затем вычитается из спектра. Работает для стационарного шума (гул вентилятора), ломается на нестационарном (голос в метро, клавиатура рядом).
AI-подход — нейросеть, обученная на парах «чистая речь + шумная речь», предсказывает маску для каждого фрейма спектрограммы. Модели уровня RNNoise, DTLN или DistilledRNNoise работают в реальном времени, обрабатывая 10–20 мс фреймы с латентностью менее одного фрейма.
RNNoise: быстрый старт на обеих платформах
RNNoise от Mozilla — C-библиотека, 90 KB, ~2 MFLOPS на фрейм. Компилируется в статическую библиотеку для iOS (xcframework) и Android (AAR с нативной частью через NDK).
// Инициализация
DenoiseState *st = rnnoise_create(NULL);
// Обработка фрейма (480 сэмплов = 10 мс при 48 kHz)
float frame[480];
// ... заполнить из буфера микрофона
float vad_prob = rnnoise_process_frame(st, frame, frame);
// frame теперь содержит очищенный сигнал
// vad_prob > 0.5 — вероятно речь
Интеграция в iOS: AVAudioEngine с кастомным AVAudioSinkNode или tap на входной ноде. Формат — Float32, 48 kHz, mono. AVAudioSession нужно настроить с mode: .voiceChat и явно отключить системную обработку, иначе iOS применяет собственный noise reduction поверх вашего.
let inputNode = audioEngine.inputNode
let format = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 480, format: format) { [weak self] buffer, _ in
guard let self = self else { return }
let channelData = buffer.floatChannelData![0]
// Передаём в rnnoise_process_frame через C-bridge
self.rnnoiseProcessor.process(channelData, frameLength: Int(buffer.frameLength))
}
На Android — AudioRecord с AudioFormat.ENCODING_PCM_FLOAT, размер буфера 480 сэмплов, обработка в отдельном потоке с Process.THREAD_PRIORITY_URGENT_AUDIO. Через JNI вызываем ту же C-библиотеку.
DTLN и более тяжёлые модели
Если RNNoise недостаточно (сложный многокомпонентный шум, несколько источников), используем DTLN — двухстадийная LSTM-модель. Конвертируется в TFLite (Android) или Core ML (iOS).
На практике: DTLN при 16 kHz занимает 8–14 мс на фрейм на iPhone 12, что укладывается в реальное время. На Android Snapdragon 778G — аналогично. На бюджетных Helio G85 — 25–35 мс, что создаёт накопительную задержку.
Для мобильного применения важен выбор частоты дискретизации: 16 kHz вместо 48 kHz сокращает вычислительную нагрузку вчетверо, а для речи полосы до 8 kHz достаточно для разборчивости.
Интеграция в WebRTC
WebRTC SDK (LiveKit, Agora, Daily) предоставляют AudioProcessingModule или hook до энкодирования. В нативном WebRTC для iOS — кастомный RTCAudioProcessingModule:
// Регистрируем кастомный процессинг
let config = RTCConfiguration()
// Создаём RTCPeerConnectionFactory с кастомным AudioDeviceModule
// или используем AudioProcessingConfig для WebRTC built-in замены
Важный нюанс: WebRTC уже содержит AECM и NS (Noise Suppression). При включении собственного AI-шумоподавления нужно отключить встроенный NS через AudioProcessingConfig, иначе двойная обработка создаёт артефакты — «металлический» звук, срезанные согласные.
Процесс
Аудит аудиопайплайна приложения, выбор модели под требования (латентность vs качество), компиляция нативной библиотеки под целевые архитектуры (arm64, x86_64 для симулятора), интеграция в существующий аудиостек, тестирование на реальных шумах.
Ориентиры по срокам
Интеграция RNNoise в существующий WebRTC-стек — 1–2 недели. Реализация с DTLN/TFLite, настройка VAD, поддержка двух платформ — 3–5 недель.







