Реалізація розпізнавання мовлення в шумному середовищі (Noise Robust STT) Стандартні STT-моделі деградують при SNR нижче 10 дБ: WER зростає з 8% до 30–60%. Noise Robust STT вирішує завдання через передобробку аудіо та застосування шумостійких моделей. ### Пайплайн попередньої обробки```python
import torch import torchaudio from denoiser import pretrained
Facebook Denoiser — state-of-the-art шумоподавление
denoiser_model = pretrained.dns64()
def denoise_audio(audio_path: str) -> torch.Tensor: waveform, sr = torchaudio.load(audio_path) if sr != 16000: waveform = torchaudio.functional.resample(waveform, sr, 16000)
with torch.no_grad():
denoised = denoiser_model(waveform.unsqueeze(0))[0]
return denoised.squeeze(0)
Whisper має тенденцію галюцинувати на зашумлених ділянках. VAD-фільтр у faster-whisper відсікає галасливі сегменти:```python
segments, _ = model.transcribe(
audio,
vad_filter=True,
vad_parameters={
"threshold": 0.5,
"min_speech_duration_ms": 250,
"min_silence_duration_ms": 2000,
"speech_pad_ms": 400
}
)
```### Тестування на зашумлених даних Використовуємо MUltiple Stimuli with Hidden Reference and Anchor (MUSHRA) тест та метрику PESQ для оцінки якості після шумозаглушення. Цільовий PESQ > 3.0 для зручного прослуховування. Терміни: базове шумозаглушення + STT - 3-4 дні. Оптимізований pipeline під конкретний тип шуму – 1-2 тижні.







