Какие модели вы используете для разделения аудио?

Мы применяем Demucs v4 (htdemucs) для общего разделения, MDX-Net для максимального качества и Spleeter для быстрой пакетной обработки. Выбор зависит от задачи: изоляция вокала, отделение ударных или ремастеринг.

Как долго обрабатывается трек стандартной длины?

На GPU обработка одной песни (3-4 минуты) занимает от 2 до 10 секунд в зависимости от модели. В пакетном режиме на CPU — до минуты на трек.

Можно ли разделить речь и музыку в видео?

Да, мы интегрируем разделение в пайплайн видеообработки. Извлекаем аудиодорожку, отделяем речь от фона, затем подаём в STT или заменяем дубляж. Типовой сценарий — снижение WER с 18% до 4%.

Какие форматы и битрейты поддерживаются?

Поддерживаются WAV, MP3, FLAC, M4A, OGG с любым битрейтом. Для максимального качества рекомендуем несжатый WAV 44.1 кГц, стерео.

Нужно ли обучать модель заново?

Нет, мы используем предобученные модели и донастройку (fine-tuning) только для специфических сценариев, например, для архивных записей с узкой полосой частот. В большинстве случаев решения работают из коробки.

Какие модели вы используете для разделения аудио?

Мы применяем Demucs v4 (htdemucs) для общего разделения, MDX-Net для максимального качества и Spleeter для быстрой пакетной обработки. Выбор зависит от задачи: изоляция вокала, отделение ударных или ремастеринг.

Как долго обрабатывается трек стандартной длины?

На GPU обработка одной песни (3-4 минуты) занимает от 2 до 10 секунд в зависимости от модели. В пакетном режиме на CPU — до минуты на трек.

Можно ли разделить речь и музыку в видео?

Да, мы интегрируем разделение в пайплайн видеообработки. Извлекаем аудиодорожку, отделяем речь от фона, затем подаём в STT или заменяем дубляж. Типовой сценарий — снижение WER с 18% до 4%.

Какие форматы и битрейты поддерживаются?

Поддерживаются WAV, MP3, FLAC, M4A, OGG с любым битрейтом. Для максимального качества рекомендуем несжатый WAV 44.1 кГц, стерео.

Нужно ли обучать модель заново?

Нет, мы используем предобученные модели и донастройку (fine-tuning) только для специфических сценариев, например, для архивных записей с узкой полосой частот. В большинстве случаев решения работают из коробки.

Интеграция AI-разделения аудио: Source Separation для бизнеса

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Интеграция AI-разделения аудио: Source Separation для бизнеса

Средний

~2-3 дня

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1361
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1189
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Представьте: у вас запись концерта, где вокал сливается с гитарой и ударными. Сделать чистую фонограмму для караоке — без AI невозможно. Старые методы (ICA, NMF) дают артефакты, а ручная обработка занимает часы. Мы решаем эту задачу с помощью современных нейросетей. Наш опыт — 5+ лет в аудиообработке, более 30 проектов по внедрению source separation в медиа и музыкальный продакшн. Гарантируем качество разделения и соответствие вашим срокам.

Source separation — выделение отдельных источников звука из смешанного сигнала. Это применяется в музыкальном продакшне (стемы), обработке речи (удаление фоновой музыки), видеопостпродакшне и ремастеринге архивных записей.

Какие проблемы решаем?

Низкое качество разделения. Старые методы (ICA, NMF) дают сильные артефакты. Современные модели на основе глубокого обучения — Demucs, Spleeter, MDX-Net — достигают SDR > 9 dB, что означает чистое разделение без заметных посторонних шумов.

Скорость обработки. Для пакетной обработки сотен треков критична производительность. Spleeter работает в 100 раз быстрее реального времени на GPU, Demucs — в 1.5 раза. Мы оптимизируем пайплайны под ваше оборудование.

Интеграция в существующие процессы. API на FastAPI, пакетная обработка через очереди, поддержка популярных форматов — всё это реализуем под ключ.

Как выбрать модель для разделения аудио?

Выбор зависит от трёх факторов: целевые стемы, требуемое качество и скорость. В таблице — сравнение основных моделей:

Модель	Тип разделения	Качество (SDR)	Скорость
Demucs v4 (htdemucs)	Вокал/барабаны/бас/прочее	9.0 dB	1.5× realtime на GPU
Spleeter (Deezer)	2/4/5 стемов	6.8 dB	100× realtime
Open-Unmix (UMX)	4 стема	7.2 dB	10× realtime
MDX-Net	Конкурсный (MDX Challenge)	9.5 dB	2× realtime
BS-RoFormer	SOTA	10.1 dB	0.8× realtime

SDR (Signal-to-Distortion Ratio) — основная метрика: выше = чище разделение.

Почему Demucs v4 — лучший выбор для продакшена?

Demucs v4 (htdemucs) даёт лучший баланс качества и скорости среди open-source решений. Он обучен на больших датасетах и стабильно работает на любых жанрах. Ниже — сравнение моделей по latency (время обработки 1 минуты аудио на GPU A100):

Модель	Latency (сек)	Потребление VRAM
Demucs v4	0.8	2.1 ГБ
MDX-Net	1.2	3.8 ГБ
Spleeter	0.1	1.0 ГБ

Для production мы рекомендуем Demucs v4 или его облегчённую версию htdemucs_ft.

Что даёт интеграция Demucs в конвейер обработки?

Мы используем Demucs v4 в продакшне. Ниже — пример класса для инференса:

import torch
from demucs.pretrained import get_model
from demucs.apply import apply_model
from demucs.audio import AudioFile, save_audio
import torchaudio

class AudioSourceSeparator:
    def __init__(self, model_name: str = "htdemucs"):
        self.model = get_model(model_name)
        self.model.eval()
        if torch.cuda.is_available():
            self.model.cuda()

    def separate(
        self,
        audio_path: str,
        output_dir: str,
        stems: list[str] = None  # None = все стемы
    ) -> dict[str, str]:
        """Разделяем трек на стемы, возвращаем пути к файлам"""
        wav = AudioFile(audio_path).read(
            streams=0,
            samplerate=self.model.samplerate,
            channels=self.model.audio_channels
        )
        ref = wav.mean(0)
        wav = (wav - ref.mean()) / ref.std()

        sources = apply_model(
            self.model,
            wav[None],
            device="cuda" if torch.cuda.is_available() else "cpu",
            progress=True,
            num_workers=2
        )[0]
        sources = sources * ref.std() + ref.mean()

        result = {}
        available_stems = self.model.sources  # ['drums', 'bass', 'other', 'vocals']
        target_stems = stems or available_stems

        for stem, source in zip(available_stems, sources):
            if stem in target_stems:
                output_path = f"{output_dir}/{stem}.wav"
                save_audio(source, output_path, samplerate=self.model.samplerate)
                result[stem] = output_path

        return result

Разделение речи от фоновой музыки

Для контент-обработки мы используем модель htdemucs_ft (fine-tuned на вокал). Пример:

from demucs.pretrained import get_model

class SpeechFromMusicExtractor:
    """Извлечение речи из видео"""

    def __init__(self):
        self.model = get_model("htdemucs_ft")

    async def process_video_audio(
        self,
        video_path: str,
        output_speech: str,
        output_music: str
    ) -> dict:
        import subprocess
        audio_path = video_path.replace(".mp4", "_audio.wav")
        subprocess.run([
            "ffmpeg", "-i", video_path,
            "-ac", "2", "-ar", "44100",
            "-vn", audio_path
        ], check=True)
        stems = self.separate(audio_path, output_dir="/tmp/stems")
        speech_stems = ["vocals"]
        music_stems = ["drums", "bass", "other"]
        return {
            "speech": stems.get("vocals"),
            "music_components": {k: stems[k] for k in music_stems if k in stems}
        }

Процесс работы

Анализ задачи — определяем целевые стемы, требования к качеству и скорости.
Выбор модели — подбираем оптимальную архитектуру (Demucs, MDX-Net, Spleeter).
Интеграция — встраиваем модель в ваш пайплайн (API, batch, реальное время).
Тестирование — оцениваем метрики (SDR, WER) на ваших данных.
Деплой — разворачиваем на GPU/CPU, настраиваем мониторинг.

Что входит в работу

Выбор и адаптация модели.
Реализация API или пакетного обработчика.
Документация по эксплуатации.
Обучение команды (1-2 часа).
Техническая поддержка 1 месяц.

Типовые применения

Музыкальный продакшн: remixing — изолируем барабаны или бас для переработки; karaoke — удаляем вокал, оставляем инструментал; mastering стемов — обрабатываем каждый слой независимо.

Контент и медиа: удаление фоновой музыки перед STT — WER снижается с 18% до 4%; ремастер архивных записей — разделение + денойз каждого стема; локализация видео — изолируем речь, заменяем дубляжом.

Постпродакшн: ADR (Automated Dialogue Replacement) — чистый вокал для замены реплик; музыкальное оформление — извлечение музыки для переиспользования.

Ограничения и нюансы

Demucs работает хуже при:

Очень громкой перкуссии поверх речи (SDR падает на 2–3 dB).
Монозаписях низкого качества (< 22 kHz).
Сложных полифонических наложениях (4+ источника одновременно).

Для максимального качества вокала — mdx_extra или htdemucs_ft. Для скорости в batch-режиме — Spleeter (в 10–15 раз быстрее Demucs на CPU).

Сроки: интеграция Demucs в пайплайн обработки медиафайлов — 1–2 недели. Полноценный сервис с очередью и веб-интерфейсом — 3–4 недели. Стоимость рассчитывается индивидуально, экономия времени на обработке снижает затраты до 70% по сравнению с ручным трудом. Свяжитесь с нами для оценки вашего проекта. Получите консультацию по внедрению AI-разделения — мы поможем подобрать решение под ваши задачи.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.