Как работает AI-шумоподавление в звонках?

ML-модель, обученная на парах чистого и зашумленного аудио, предсказывает маску для каждого фрейма спектрограммы. Она пропускает только речевую составляющую, подавляя остальные звуки. Обработка идет на устройстве с задержкой 10–20 мс.

Чем AI-шумоподавление лучше классического DSP?

DSP-методы (спектральное вычитание) эффективны только для стационарного шума. AI-модели справляются с нестационарными шумами (разговоры, клавиатура, улица) и не создают артефактов вроде "музыкального шума".

Какие модели вы используете?

Для быстрых проектов — RNNoise (C-библиотека, ~90 КБ). Для сложного шума — DTLN (LSTM, конвертируется в TFLite/Core ML). Подбираем модель под требования по латентности и качеству.

Сколько времени занимает интеграция?

Базовая интеграция RNNoise в существующий WebRTC-стек — 1–2 недели. Полноценное решение с DTLN, поддержкой двух платформ и настройкой VAD — 3–5 недель.

Влияет ли шумоподавление на производительность?

RNNoise потребляет около 2 MFLOPS на фрейм — практически незаметно. DTLN на iPhone 12 тратит 8–14 мс на фрейм, на бюджетных Android может быть 25–35 мс. Мы оптимизируем под ваше устройство.

Как работает AI-шумоподавление в звонках?

ML-модель, обученная на парах чистого и зашумленного аудио, предсказывает маску для каждого фрейма спектрограммы. Она пропускает только речевую составляющую, подавляя остальные звуки. Обработка идет на устройстве с задержкой 10–20 мс.

Чем AI-шумоподавление лучше классического DSP?

DSP-методы (спектральное вычитание) эффективны только для стационарного шума. AI-модели справляются с нестационарными шумами (разговоры, клавиатура, улица) и не создают артефактов вроде "музыкального шума".

Какие модели вы используете?

Для быстрых проектов — RNNoise (C-библиотека, ~90 КБ). Для сложного шума — DTLN (LSTM, конвертируется в TFLite/Core ML). Подбираем модель под требования по латентности и качеству.

Сколько времени занимает интеграция?

Базовая интеграция RNNoise в существующий WebRTC-стек — 1–2 недели. Полноценное решение с DTLN, поддержкой двух платформ и настройкой VAD — 3–5 недель.

Влияет ли шумоподавление на производительность?

RNNoise потребляет около 2 MFLOPS на фрейм — практически незаметно. DTLN на iPhone 12 тратит 8–14 мс на фрейм, на бюджетных Android может быть 25–35 мс. Мы оптимизируем под ваше устройство.

AI-шумоподавление для звонков в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1734 услуг

AI-шумоподавление для звонков в мобильном приложении

Сложный

~1-2 недели

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
858
Разработка мобильного приложения для компании XOOMER
745
Разработка мобильного приложения для компании RHL
1162
Разработка мобильного приложения для компании ZIPPY
1034
Разработка мобильного приложения для компании Affhome
968
Разработка мобильного приложения для компании FLAVORS
563

Показать больше работ

Проблема: фоновый шум в мобильных звонках

При открытии микрофона через AVAudioSession на iOS или AudioRecord на Android вы получаете сырой PCM-поток — со всем, что находится вокруг пользователя. Строительные работы, кофемашина, дети — всё это идёт в вызов. Стандартный Acoustic Echo Cancellation (AEC) из WebRTC убирает эхо, но не фоновый шум. Мы реализуем интеграцию ML-моделей шумоподавления под ключ — от выбора архитектуры до публикации в сторах. Наши инженеры имеют 5+ лет опыта в аудиообработке и реализовали более 30 проектов с голосовыми интерфейсами.

Чем отличается AI-шумоподавление от стандартного DSP

Классический подход — спектральное вычитание или Wiener filter: модель шума оценивается в паузах речи, затем вычитается из спектра. Работает для стационарного шума (гул вентилятора), ломается на нестационарном (голос в метро, клавиатура рядом).

AI-подход — нейросеть, обученная на парах «чистая речь + шумная речь», предсказывает маску для каждого фрейма спектрограммы. Модели уровня RNNoise или DTLN работают в реальном времени, обрабатывая 10–20 мс фреймы с латентностью менее одного фрейма.

Как работает AI-шумоподавление в реальном времени?

ML-модель получает спектрограмму сигнала, вычисляет вероятность наличия речи в каждом частотном баке и применяет фильтр. Это позволяет подавлять шум даже когда человек говорит — в отличие от гейтов. Voice Activity Detection (VAD) дополнительно снижает нагрузку, пропуская только речевые фрагменты.

Сравнение моделей: RNNoise vs DTLN

Параметр	RNNoise	DTLN
Размер модели	~90 КБ	~2 МБ
Задержка	<1 мс	8–35 мс (зависит от устройства)
Качество подавления	Хорошее для стационарного шума	Отличное для сложного, многокомпонентного шума
Поддержка платформ	C-библиотека (iOS/Android через NDK)	TFLite (Android) / Core ML (iOS)
Рекомендация	Бюджетные устройства, лимит по ресурсам	Флагманы, требования к качеству

RNNoise: быстрый старт на обеих платформах

RNNoise от Mozilla — C-библиотека, 90 KB, ~2 MFLOPS на фрейм. Компилируется в статическую библиотеку для iOS (xcframework) и Android (AAR с нативной частью через NDK).

// Инициализация
DenoiseState *st = rnnoise_create(NULL);

// Обработка фрейма (480 сэмплов = 10 мс при 48 kHz)
float frame[480];
// ... заполнить из буфера микрофона
float vad_prob = rnnoise_process_frame(st, frame, frame);
// frame теперь содержит очищенный сигнал
// vad_prob > 0.5 — вероятно речь

Интеграция в iOS: AVAudioEngine с кастомным AVAudioSinkNode или tap на входной ноде. Формат — Float32, 48 kHz, mono. AVAudioSession нужно настроить с mode: .voiceChat и явно отключить системную обработку, иначе iOS применяет собственный noise reduction поверх вашего.

let inputNode = audioEngine.inputNode
let format = inputNode.outputFormat(forBus: 0)

inputNode.installTap(onBus: 0, bufferSize: 480, format: format) { [weak self] buffer, _ in
    guard let self = self else { return }
    let channelData = buffer.floatChannelData![0]
    // Передаём в rnnoise_process_frame через C-bridge
    self.rnnoiseProcessor.process(channelData, frameLength: Int(buffer.frameLength))
}

На Android — AudioRecord с AudioFormat.ENCODING_PCM_FLOAT, размер буфера 480 сэмплов, обработка в отдельном потоке с Process.THREAD_PRIORITY_URGENT_AUDIO. Через JNI вызываем ту же C-библиотеку.

DTLN и более тяжёлые модели

Если RNNoise недостаточно (сложный многокомпонентный шум, несколько источников), используем DTLN — двухстадийная LSTM-модель. Конвертируется в TFLite (Android) или Core ML (iOS).

На практике: DTLN при 16 kHz занимает 8–14 мс на фрейм на iPhone 12, что укладывается в реальное время. На Android Snapdragon 778G — аналогично. На бюджетных Helio G85 — 25–35 мс, что создаёт накопительную задержку.

Для мобильного применения важен выбор частоты дискретизации: 16 kHz вместо 48 kHz сокращает вычислительную нагрузку вчетверо, а для речи полосы до 8 kHz достаточно для разборчивости.

Интеграция в WebRTC

WebRTC SDK (LiveKit, Agora, Daily) предоставляют AudioProcessingModule или hook до энкодирования. В нативном WebRTC для iOS — кастомный RTCAudioProcessingModule:

// Регистрируем кастомный процессинг
let config = RTCConfiguration()
// Создаём RTCPeerConnectionFactory с кастомным AudioDeviceModule
// или используем AudioProcessingConfig для WebRTC built-in замены

Важный нюанс: WebRTC уже содержит AECM и NS (Noise Suppression). При включении собственного AI-шумоподавления нужно отключить встроенный NS через AudioProcessingConfig, иначе двойная обработка создаёт артефакты — «металлический» звук, срезанные согласные.

Что входит в работу (deliverables)

Аудит текущего аудиопайплайна приложения
Выбор модели (RNNoise/DTLN/кастомная) под требования по латентности и качеству
Компиляция нативной библиотеки под целевые архитектуры (arm64, x86_64 для симулятора)
Интеграция в существующий аудиостек (AVAudioEngine, AudioRecord, WebRTC)
Настройка VAD и устранение двойной обработки (отключение встроенного NS)
Тестирование на реальных шумах (метро, улица, офис)
Предоставление документации и поддержка при публикации в сторах

Типичные ошибки при внедрении

Забывают отключить встроенный noise suppression в WebRTC — получают «металлический» звук.
Используют 48 kHz для DTLN — задержка становится неприемлемой.
Не настраивают VAD — модель тратит ресурсы на тишину.
Не проверяют совместимость с разными версиями Android (AudioRecord имеет баги на некоторых прошивках).

Ориентиры по срокам

Интеграция RNNoise в существующий WebRTC-стек — 1–2 недели. Реализация с DTLN/TFLite, настройка VAD, поддержка двух платформ — 3–5 недель. Стоимость рассчитывается индивидуально. Свяжитесь с нами для оценки вашего проекта — мы подберем оптимальное решение и предоставим консультацию.

AI и ML в мобильных приложениях: CoreML, TFLite и on-device модели

Мы различаем два принципиально разных подхода: приложение с on-device AI и приложение, которое просто вызывает облачное API. Первое работает без интернета, не отправляет данные пользователя на сторонние серверы и отвечает за 50 миллисекунд. Второе зависит от задержки сети и тарифного плана. Выбор архитектуры — ключевой этап, который напрямую влияет на стоимость, приватность и пользовательский опыт. Наш опыт показывает: в 70% проектов on-device инференс оказывается дешевле в долгосрочной перспективе за счёт исключения серверных затрат.

Как выбрать между CoreML и TFLite для on-device инференса?

CoreML — нативный фреймворк Apple для запуска ML-моделей на устройстве. Поддерживает Neural Engine (начиная с A11 Bionic), GPU и CPU как fallback. Модели конвертируются в формат .mlmodel через coremltools из PyTorch, ONNX или TensorFlow. Конвертация — не всегда тривиальна: кастомные слои требуют реализации MLCustomLayer, а квантизация до INT8 иногда заметно роняет точность на специфических данных. Мы гарантируем, что итоговая модель проходит валидацию на реальных данных до и после конвертации.

TensorFlow Lite — кросс-платформенная альтернатива для Android и Flutter. На Android использует NNAPI (Neural Networks API) для хардварного ускорения — с Android 10 NNAPI стабильнее, до этого лучше явно использовать GPU delegate через GpuDelegate. Типичная ошибка: модель обучена на нормализованных данных в диапазоне [0,1], а в приложении на вход подаётся [0,255] — инференс работает, но с бессмысленными результатами без ошибки. Мы включаем модуль автоматической валидации входных данных в SDK.

Для задач классификации изображений, детекции объектов и сегментации доступны готовые оптимизированные модели. YOLOv8 в CoreML формате запускает детекцию кадра 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite с GPU delegate — около 8 мс на Pixel 7 при классификации.

Параметр	CoreML	TFLite
Платформы	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Хардварное ускорение	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Поддержка квантизации	FP16, INT8 (с coremltools)	FP16, INT8, dynamic range
Кастомные операции	Через MLCustomLayer (Swift)	Через делегаты (Java/Kotlin)
Размер бандла модели	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Что делать, если нужна генерация текста на устройстве?

Запуск небольших языковых моделей на устройстве стал реальностью в последние несколько лет. Apple Intelligence использует собственные модели через Private Cloud Compute, но для сторонних разработчиков доступны другие пути.

llama.cpp с Metal backend на iOS — работающий подход для phi-3-mini (3.8B параметров, 4-bit квантизация, ~2.3 ГБ). Инференс: 15–25 токенов/секунду на iPhone 15 Pro. Для интеграции в Swift используем Swift Package llama.swift или обёртку через C-интерфейс llama.h. Бинарник к приложению не прикладываем — модель скачивается при первом запуске и хранится в Application Support. Наши сертифицированные разработчики настраивают инкрементальную загрузку, чтобы не блокировать первый запуск.

На Android аналог — Google AI Edge (бывший MediaPipe LLM Inference API) с поддержкой Gemma-2B. Работает через GPU delegate, на Tensor G3 чипе Pixel 8 Pro — около 20 токенов/секунду.

Ограничения реальны: модели больше 4B параметров на мобильных устройствах по-прежнему медленны. Для сложных задач рассуждения on-device LLM уступает GPT-4o в качестве. Гибридный подход — on-device для коротких задач и приватных данных, облако для сложных запросов — часто оптимален. Оценим ваш кейс и предложим баланс производительности и приватности — пишите.

Интеграция OpenAI API и других облачных моделей

Для сценариев, где cloud inference допустим, интеграция OpenAI, Anthropic или Google Gemini — это HTTP клиент + streaming SSE. В Swift удобно через AsyncThrowingStream для стриминговых ответов. В Kotlin — через Flow.

Критически важно: API-ключи никогда не хранятся в бандле приложения. Даже обфусцированный ключ извлекается из IPA за 10 минут через strings или frida. Правильная архитектура: мобильное приложение → собственный backend → OpenAI API. Backend контролирует rate limiting, логирует запросы, защищает ключ.

Что входит в работу (deliverables)

Обученная и квантизированная модель под целевое устройство (документация по метрикам)
SDK для интеграции (Swift/Kotlin/Flutter) с примерами вызова
Тесты производительности на 3–5 реальных устройствах
Инструкция по обновлению модели OTA
Поддержка при прохождении модерации App Store / Google Play (проверка соответствия Guidelines 4.2, 5.1)
2 недели технической поддержки после релиза

Типичный пайплайн проекта

Анализ задачи — замеряем latency, privacy, size, поддерживаемые устройства.
Прототипирование модели — в Python, оценка accuracy на целевых данных.
Конвертация и квантизация — под CoreML/TFLite с валидацией.
Интеграция в приложение — модель оборачивается в сервисный слой (легко подменять CoreML → TFLite → облако).
Тестирование — на реальных девайсах, замер FPS, RAM, батареи.
Деплой — через TestFlight / Firebase App Distribution, мониторинг метрик.

Сроки: интеграция готовой CoreML/TFLite модели — 1–2 недели, разработка кастомной модели с мобильной оптимизацией — от 6 недель, on-device LLM чат с персонализацией — 4–8 недель.

Почему мы беремся за сложные кейсы?

10+ лет опыта в мобильной разработке, 50+ внедрённых AI/ML решений, гарантия совместимости с актуальными версиями iOS и Android. Все проекты проходят code review и нагрузочное тестирование. В стоимость уже входит подготовка документации для модерации и обучение вашей команды.

Свяжитесь с нами — мы поможем выбрать архитектуру и внедрить ML в ваше приложение под ключ. Закажите аудит существующего решения — бесплатно оценим потенциал экономии серверных затрат (в некоторых проектах экономия достигает $10k в месяц).