Реалізація AI-розділення аудіо на дорожки (Source Separation)
Source separation — видобування окремих джерел звука зі змішаного сигналу. Застосування: музичний продакшн (стеми), обробка мовлення (видалення фонової музики), відеопостпродакшн, реставрація архівних записів.
Основні моделі
| Модель | Тип розділення | Якість (SDR) | Швидкість |
|---|---|---|---|
| Demucs v4 | Вокал/барабани/бас/інше | 9.0 dB | 1.5× realtime на GPU |
| Spleeter | 2/4/5 стемів | 6.8 dB | 100× realtime |
| Open-Unmix | 4 стема | 7.2 dB | 10× realtime |
| BS-RoFormer | SOTA 2024 | 10.1 dB | 0.8× realtime |
SDR (Signal-to-Distortion Ratio) — вищий = чистіший розділ.
Інтеграція Demucs v4
from demucs.pretrained import get_model
from demucs.apply import apply_model
model = get_model("htdemucs")
sources = apply_model(model, wav[None])
# повертає: drums, bass, other, vocals
Випадки використання
Музичний продакшн: remixing, karaoke, mastering Контент: видалення фонової музики перед STT, реставрація архівів Постпродакшн: ADR, видобування музики, локалізація відео
Терміни: інтеграція Demucs — 1–2 тижні. Повний сервіс з чергою та UI — 3–4 тижні.







