Реалізація розпізнавання мови в шумному середовищі (Noise Robust STT)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Реалізація розпізнавання мови в шумному середовищі (Noise Robust STT)
Середній
від 1 тижня до 3 місяців
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    901
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1119
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    853

Реалізація розпізнавання мовлення в шумному середовищі (Noise Robust STT) Стандартні STT-моделі деградують при SNR нижче 10 дБ: WER зростає з 8% до 30–60%. Noise Robust STT вирішує завдання через передобробку аудіо та застосування шумостійких моделей. ### Пайплайн попередньої обробки```python

import torch import torchaudio from denoiser import pretrained

Facebook Denoiser — state-of-the-art шумоподавление

denoiser_model = pretrained.dns64()

def denoise_audio(audio_path: str) -> torch.Tensor: waveform, sr = torchaudio.load(audio_path) if sr != 16000: waveform = torchaudio.functional.resample(waveform, sr, 16000)

with torch.no_grad():
    denoised = denoiser_model(waveform.unsqueeze(0))[0]

return denoised.squeeze(0)
Whisper має тенденцію галюцинувати на зашумлених ділянках. VAD-фільтр у faster-whisper відсікає галасливі сегменти:```python
segments, _ = model.transcribe(
    audio,
    vad_filter=True,
    vad_parameters={
        "threshold": 0.5,
        "min_speech_duration_ms": 250,
        "min_silence_duration_ms": 2000,
        "speech_pad_ms": 400
    }
)
```### Тестування на зашумлених даних Використовуємо MUltiple Stimuli with Hidden Reference and Anchor (MUSHRA) тест та метрику PESQ для оцінки якості після шумозаглушення. Цільовий PESQ > 3.0 для зручного прослуховування. Терміни: базове шумозаглушення + STT - 3-4 дні. Оптимізований pipeline під конкретний тип шуму – 1-2 тижні.