Які типи шумів прибирає AI-шумозаглушення?

Моделі пригнічують стаціонарні шуми (гул кондиціонера, вентиляція), імпульсні (стук клавіатури, клацання) та нестаціонарні (вуличний трафік, вітер). Ефективність залежить від співвідношення сигнал/шум (SNR). Для SNR < 10 дБ зниження Word Error Rate (WER) після STT досягає 40%.

Який підхід кращий: спектральне віднімання чи нейромережа?

Нейромережі (DeepFilterNet, RNNoise) перевершують спектральне віднімання за якістю: PESQ вищий на 0.3-0.6 бала, менше артефактів. Спектральне віднімання (noisereduce) швидше і не потребує GPU, але дає «музичний шум» на низьких SNR.

Скільки часу займає обробка аудіо в реальному часі?

RNNoise обробляє фрейм за 3-5 мс при довжині вікна 10 мс (затримка <10 мс). DeepFilterNet у реальному часі потребує GPU (затримка ~20 мс). Для офлайн-завдань використовується повний батч-процесинг без обмежень за часом.

Чи підходить ваше рішення для VoIP / відеоконференцій?

Так, ми інтегруємо RNNoise у SIP-пайплайни (FreeSWITCH, Asterisk) та WebRTC. Обробка йде на стороні сервера, клієнт отримує чистий потік — сумісно з будь-якими софтфонами.

Які метрики ви використовуєте для оцінки якості?

Основні метрики: PESQ (MOS), STOI (розбірливість мови), DNSMOS. Для задач STT додатково вимірюємо WER до та після обробки. Гарантуємо покращення PESQ не менш ніж на 0.5 бала при SNR < 15 дБ.

Які типи шумів прибирає AI-шумозаглушення?

Моделі пригнічують стаціонарні шуми (гул кондиціонера, вентиляція), імпульсні (стук клавіатури, клацання) та нестаціонарні (вуличний трафік, вітер). Ефективність залежить від співвідношення сигнал/шум (SNR). Для SNR < 10 дБ зниження Word Error Rate (WER) після STT досягає 40%.

Який підхід кращий: спектральне віднімання чи нейромережа?

Нейромережі (DeepFilterNet, RNNoise) перевершують спектральне віднімання за якістю: PESQ вищий на 0.3-0.6 бала, менше артефактів. Спектральне віднімання (noisereduce) швидше і не потребує GPU, але дає «музичний шум» на низьких SNR.

Скільки часу займає обробка аудіо в реальному часі?

RNNoise обробляє фрейм за 3-5 мс при довжині вікна 10 мс (затримка <10 мс). DeepFilterNet у реальному часі потребує GPU (затримка ~20 мс). Для офлайн-завдань використовується повний батч-процесинг без обмежень за часом.

Чи підходить ваше рішення для VoIP / відеоконференцій?

Так, ми інтегруємо RNNoise у SIP-пайплайни (FreeSWITCH, Asterisk) та WebRTC. Обробка йде на стороні сервера, клієнт отримує чистий потік — сумісно з будь-якими софтфонами.

Які метрики ви використовуєте для оцінки якості?

Основні метрики: PESQ (MOS), STOI (розбірливість мови), DNSMOS. Для задач STT додатково вимірюємо WER до та після обробки. Гарантуємо покращення PESQ не менш ніж на 0.5 бала при SNR < 15 дБ.

Нейромережеве шумозаглушення: RNNoise і DeepFilterNet для чистого звуку

Q: Який підхід кращий: спектральне віднімання чи нейромережа?

Нейромережі (DeepFilterNet, RNNoise) перевершують спектральне віднімання за якістю: PESQ вищий на 0.3-0.6 бала, менше артефактів. Спектральне віднімання (noisereduce) швидше і не потребує GPU, але дає «музичний шум» на низьких SNR.

Q: Скільки часу займає обробка аудіо в реальному часі?

RNNoise обробляє фрейм за 3-5 мс при довжині вікна 10 мс (затримка <10 мс). DeepFilterNet у реальному часі потребує GPU (затримка ~20 мс). Для офлайн-завдань використовується повний батч-процесинг без обмежень за часом.

Q: Чи підходить ваше рішення для VoIP / відеоконференцій?

Так, ми інтегруємо RNNoise у SIP-пайплайни (FreeSWITCH, Asterisk) та WebRTC. Обробка йде на стороні сервера, клієнт отримує чистий потік — сумісно з будь-якими софтфонами.

Q: Які метрики ви використовуєте для оцінки якості?

Основні метрики: PESQ (MOS), STOI (розбірливість мови), DNSMOS. Для задач STT додатково вимірюємо WER до та після обробки. Гарантуємо покращення PESQ не менш ніж на 0.5 бала при SNR < 15 дБ.

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Нейромережеве шумозаглушення: RNNoise і DeepFilterNet для чистого звуку

Простий

~2-3 дні

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1361
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1189
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Вступ: чому шум вбиває розбірливість

Уявіть: ви проводите нараду в Zoom, а на фоні працює кондиціонер і стукотить клавіатура. Стандартний шумопригнічувач обрізає і голос, створюючи металевий відтінок. У результаті учасники скаржаться на втому, а автоматичне розшифрування (STT) видає 30% помилок. Ми стикалися з цим десятки разів: від VoIP-операторів з тисячами одночасних дзвінків до подкастерів, які хочуть заощадити на студії. AI-шумозаглушення — нейромережеві рішення, такі як RNNoise та DeepFilterNet, — вирішують проблему радикально: чистий звук без артефактів. Наш досвід — 5+ років в аудіообробці, понад 50 успішних інтеграцій для різних сценаріїв.

Чому спектральне віднімання створює «музичний шум»?

Традиційні методи, наприклад спектральне віднімання (noisereduce), засновані на відніманні оцінки шумової складової з сигналу. Але при низькому SNR (<10 дБ) вони починають «вирізати» мовні гармоніки, залишаючи тонкі частотні спотворення — той самий «музичний шум». В одному проєкті ми порівнювали noisereduce з нейромережею: PESQ у noisereduce склав 2.8, а у RNNoise — 3.2. Різниця відчутна на слух, а для STT WER знижується на 15-25%. RNNoise кращий за спектральне віднімання в 1.5 рази за PESQ. Згідно з дослідженнями, опублікованими в Mozilla Research, RNNoise досягає PESQ 3.2 при затримці менше 10 мс.

Як AI-моделі перевершують класику: RNNoise та DeepFilterNet

DeepFilterNet використовує глибокі фільтри та видає PESQ >3.8, але потребує GPU. Обидві моделі навчаються на парах «чиста мова + шум» та адаптуються до конкретного профілю шуму при fine-tuning. RNNoise — рекурентна мережа від Mozilla — аналізує спектр у реальному часі з затримкою менше 10 мс.

noisereduce

Бібліотека на основі спектрального віднімання з адаптивним профілем — проста у використанні, не потребує GPU.

import noisereduce as nr
import soundfile as sf

def denoise(input_path: str, output_path: str) -> None:
    audio, sr = sf.read(input_path)
    noise_sample = audio[:int(sr * 0.5)]
    reduced = nr.reduce_noise(y=audio, sr=sr, y_noise=noise_sample,
                              prop_decrease=0.75, stationary=False)
    sf.write(output_path, reduced, sr)

RNNoise

Легковагова рекурентна мережа, працює в реальному часі. Інтегрується через FFmpeg. RNNoise — open-source проєкт, який можна вбудувати в FreeSWITCH або Asterisk.

import subprocess

def rnnoise_denoise(input_wav: str, output_wav: str) -> None:
    subprocess.run([
        "ffmpeg", "-i", input_wav,
        "-af", "arnndn=m=/usr/share/rnnoise/models/bd.rnnn",
        output_wav
    ], check=True)

DeepFilterNet

SOTA-модель для студійної якості. Потребує GPU, але дає PESQ >3.8. Підтримує ONNX-експорт для інференсу на Triton.

from df import enhance, init_df

model, state, _ = init_df()

def enhance(audio: np.ndarray, sr: int) -> np.ndarray:
    return enhance(model, state, audio)

Які результати дають моделі?

DeepFilterNet перевершує noisereduce на 0.8 бала PESQ. Для реального кейсу з VoIP-оператором ми заміряли:

Модель	PESQ	Затримка	GPU
noisereduce	2.8	offline	ні
RNNoise	3.2	<10 мс	ні
DeepFilterNet	3.8	~20 мс	T4+

Сценарій	Модель	Покращення PESQ
VoIP	RNNoise	+0.4
Подкаст offline	DeepFilterNet	+0.8
STT-pipeline	DeepFilterNet	+0.8, WER -30%

При 1000 одночасних дзвінків RNNoise тримає p99 latency <15 мс, DeepFilterNet на GPU T4 — <30 мс. Економія на ручній верифікації в одному проєкті склала до кількох тисяч доларів на місяць.

Як інтегрувати RNNoise в WebRTC пайплайн?

RNNoise можна вбудувати в WebRTC на серверній стороні, наприклад, з використанням FreeSWITCH та mod_rnnoise. Ми розгортали таке рішення для оператора: 500 одночасних дзвінків, затримка 5 мс, зниження WER з 28% до 14%. Економія на ручній верифікації досягла тисяч доларів щомісяця. Порівняння з класичним AEC: RNNoise зменшує WER у 2 рази. Для високонавантажених систем економія на операційних витратах може бути значною.

Для RNNoise достатньо CPU (одне ядро на потік). DeepFilterNet потребує GPU (NVIDIA T4 або вище) та CUDA 11+. Рекомендуємо контейнеризацію через Docker для простоти розгортання.

Процес роботи

Аналіз шумового профілю — запис 10 секунд аудіо, вимірювання SNR та спектру. Визначаємо тип шуму: стаціонарний (гул) або нестаціонарний (трафік).
Вибір моделі — на основі вимог до latency та якості. Для real-time — RNNoise або DeepFilterNet (якщо є GPU).
Інтеграція — через API, Docker-контейнер, FFmpeg-фільтр або модуль FreeSWITCH.
Навантажувальне тестування — p99 latency, PESQ, STOI при 1000 потоках.
Деплой — контейнеризація, моніторинг метрик (Grafana + Prometheus).

Терміни: від 3 до 10 робочих днів. Вартість розраховується індивідуально — залежить від складності пайплайну та кількості моделей.

Що входить у результат

Оптимізований інференс моделі (ONNX, TensorRT) під вашу архітектуру
Документація з інтеграції та експлуатації
Навантажувальний звіт з метриками
Навчання команди (2 години вебінару)
3 місяці технічної підтримки

Ми гарантуємо покращення PESQ мінімум на 0.5 бала та зниження WER на 15-40%. Оцініть ваш сценарій — зв'яжіться з нами для попереднього аналізу. Отримайте чистий звук без викривлень. Замовте пілотний проєкт на ваших даних. Отримайте консультацію для вашого проєкту.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.