Чим відрізняється text-dependent від text-independent верифікації?

Text-dependent вимагає фіксованої фрази (пароля), дає EER 0.5–1.5%, але вразливий до replay-атак. Text-independent працює з будь-якою мовою, EER 1–3%, практичніший для реальних сценаріїв.

Який поріг верифікації обрати?

Поріг визначає баланс між безпекою (FAR) та зручністю (FRR). Для високозахищених систем (банки) використовують поріг 0.4 з FAR 0.1%, для звичайних додатків — 0.25 з FAR 1%.

Як захиститися від синтезованого голосу?

Anti-spoofing модуль на основі CQCC-LCNN перевіряє, чи є запис природним. Він відсікає синтезовані та записані голоси, додаючи додатковий рівень безпеки.

Скільки еталонних фраз потрібно для реєстрації?

Рекомендуємо 3–5 фраз. Усереднення ембендінгів знижує EER на 30% порівняно з однією фразою. Оновлюйте еталон раз на 3–6 місяців через зміни голосу.

Які терміни впровадження Speaker Verification?

Базова система (тільки верифікація) — близько 1 тижня. З anti-spoofing, управлінням профілями та інтеграцією — 2–3 тижні. Час залежить від складності інфраструктури та вимог до точності.

Чим відрізняється text-dependent від text-independent верифікації?

Text-dependent вимагає фіксованої фрази (пароля), дає EER 0.5–1.5%, але вразливий до replay-атак. Text-independent працює з будь-якою мовою, EER 1–3%, практичніший для реальних сценаріїв.

Який поріг верифікації обрати?

Поріг визначає баланс між безпекою (FAR) та зручністю (FRR). Для високозахищених систем (банки) використовують поріг 0.4 з FAR 0.1%, для звичайних додатків — 0.25 з FAR 1%.

Як захиститися від синтезованого голосу?

Anti-spoofing модуль на основі CQCC-LCNN перевіряє, чи є запис природним. Він відсікає синтезовані та записані голоси, додаючи додатковий рівень безпеки.

Скільки еталонних фраз потрібно для реєстрації?

Рекомендуємо 3–5 фраз. Усереднення ембендінгів знижує EER на 30% порівняно з однією фразою. Оновлюйте еталон раз на 3–6 місяців через зміни голосу.

Які терміни впровадження Speaker Verification?

Базова система (тільки верифікація) — близько 1 тижня. З anti-spoofing, управлінням профілями та інтеграцією — 2–3 тижні. Час залежить від складності інфраструктури та вимог до точності.

Реалізація верифікації мовця (Speaker Verification) під ключ

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Реалізація верифікації мовця (Speaker Verification) під ключ

Середній

від 1 тижня до 3 місяців

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Реалізація верифікації мовця (Speaker Verification) під ключ

Фінтех-компанія, де голосовий бот обробляв перекази, зіткнулася з шахрайством: підроблені голосові команди генерувалися через WaveNet і безперешкодно проходили перевірку. Втрати сягали 15% від обсягу транзакцій. Знадобилася система верифікації мовця (speaker verification) з anti-spoofing, здатна відсікати синтезовані аудіозаписи в реальному часі. Наш стек — ECAPA-TDNN для вилучення ембендінгів і CQCC-LCNN для детекції підробок.

Проблеми, які вирішуємо

Перша — replay-атаки: зловмисник просто відтворює запис. Text-dependent режим тут безсилий, потрібен anti-spoofing. Друга — висока варіативність голосу через застуду, втому або шум. Без адаптивного порогу FRR може перевищити 10%. Третя — швидкість: система має відповідати за <200 мс, інакше UX страждає. Крім того, синтезовані голоси на базі WaveNet і Tacotron стають все реалістичнішими, і традиційні методи не справляються.

Атаки на голосові системи

Розрізняють три основні типи: replay (повтор запису), синтез (WaveNet, Tacotron) і конверсія (перетворення голосу в інший). Replay блокується додаванням nonce і timestamp у запит. Синтез і конверсію виявляє CQCC-LCNN, навчений на ASVspoof 2021 — точність 98% при FAR 1%. Захист від replay-атак знижує втрати до 90%.

Як ми підбираємо поріг верифікації?

Поріг визначає баланс між FAR (пропустили чужого) і FRR (відхилили свого). Для банківських сценаріїв потрібен FAR <0.5%, для авторизації в додатку — достатньо 1%. Ми підбираємо поріг під ваш сценарій за допомогою ROC-кривої на ваших даних. У таблиці нижче показані типові пороги:

Поріг	FAR	FRR	Застосування
0.1	5%	1%	Низький ризик (авторизація в додатку)
0.25	1%	5%	Збалансований (звичайні сценарії)
0.4	0.1%	15%	Висока безпека (банки, платежі)

Докладніше про метрики

FAR (False Acceptance Rate) — частка помилок, коли система приймає чужого. FRR (False Rejection Rate) — частка, коли відхиляє свого. EER (Equal Error Rate) — точка перетину FAR і FRR, стандартна метрика якості. Середній EER на наших впровадженнях — 1.2%.

Порівняння архітектур: ECAPA-TDNN дає EER в 1.2 раза нижчий, ніж x-vectors (0.87% проти 1.05% на VoxCeleb1). Для ресурсо-обмежених сценаріїв використовуємо ResNetSE34L з INT8 квантизацією — інференс на CPU за 50 мс.

Архітектура	EER (%)	Інференс (GPU/CPU)	Розмір моделі
ECAPA-TDNN	0.87	80 мс / 200 мс	20 MB
x-vectors	1.05	60 мс / 150 мс	15 MB
ResNetSE34L (INT8)	1.10	30 мс / 50 мс	5 MB

Реалізація на ECAPA-TDNN

Використовуємо передтреновану модель з SpeechBrain: ECAPA-TDNN. Вона видає ембендінги 192-вимірного простору. Швидкість інференсу — 80 мс на GPU, 200 мс на CPU. Код:

from speechbrain.pretrained import SpeakerRecognition
import torchaudio

verifier = SpeakerRecognition.from_hparams(
    source="speechbrain/spkrec-ecapa-voxceleb",
    savedir="tmp_verification"
)

def verify_speaker(
    enrollment_audio: str,
    test_audio: str,
    threshold: float = 0.25
) -> tuple[bool, float]:
    """
    enrollment_audio: еталонний запис зареєстрованого користувача
    threshold: поріг для Accept/Reject (підбирається під потрібний FAR/FRR)
    """
    score, prediction = verifier.verify_files(enrollment_audio, test_audio)
    is_same = float(score) >= threshold
    return is_same, float(score)

Чому потрібен anti-spoofing?

Без неї система вразлива: синтезований голос (WaveNet, Tacotron) проходить верифікацію. Ми додаємо додатковий класифікатор на основі CQCC-LCNN, який розрізняє записи та живу мову. Він спрацьовує до основного порівняння, блокуючи 98% атак. Вартість проекту з anti-spoofing розраховується індивідуально, а економія від впровадження є значною за рахунок запобігання шахрайству.

from speechbrain.pretrained import EncoderClassifier

antispoofing = EncoderClassifier.from_hparams(
    source="speechbrain/asvspoof-cqcc-lcnn",
    savedir="tmp_antispoofing"
)

def is_genuine(audio_path: str) -> bool:
    signal, _ = torchaudio.load(audio_path)
    prediction = antispoofing.classify_batch(signal)
    return prediction[3][0] == "genuine"

Типові помилки при впровадженні

Збирати одну еталонну фразу — погано. Потрібно 3–5, усереднення дає -30% EER.
Не оновлювати еталон — голос змінюється. Раз на 3–6 місяців перезаписуйте.
Ігнорувати replay — додавайте nonce і timestamp у запит.
Використовувати дефолтний поріг — завжди калібруйте під свої дані.
Забути про шум — мінімальний SNR 15 дБ, інакше accuracy падає.

Процес впровадження

Аналітика: збираємо вимоги щодо FAR/FRR, типи атак, інтеграційні точки.
Прототип: за 2 дні ставимо модель, тестуємо на ваших записах, підбираємо поріг.
Інтеграція: вбудовуємо в бота/додаток через REST API або gRPC.
Навантажувальне тестування: перевіряємо latency p99 < 300 мс при 500 RPS.
Деплой і моніторинг: ставимо на Kubernetes з автоскейлінгом, логуємо метрики.

Що входить в роботу?

Документація по архітектурі та специфікації API (OpenAPI).
Docker-образ з моделлю (версія для GPU/CPU).
Інструкція з розгортання та експлуатації.
Навчання вашої команди (2-3 дні).
Гарантія на модель 6 місяців з можливістю донавчання.

Ми займаємося голосовою біометрією понад 5 років, завершили понад 30 проектів для фінтеху та телекому. Середній EER на наших впровадженнях — 1.2%.

Терміни

Базова система (верифікація + пороги) — від 1 тижня. З anti-spoofing та управлінням профілями — 2–3 тижні. Вартість залежить від кількості інстансів та навантаження. Оцінюємо проект за 1 день.

Хочете протестувати speaker verification на своїх даних? Замовте пілотний проект — ми адаптуємо модель за 1 день. Отримайте консультацію по вашому проекту — надішлемо попередню оцінку.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.