Яка модель STT найкраща для медичної лексики?

Найкращий результат дає донавчений Whisper на медичних транскриптах — WER 8-15%. Для швидкого старту використовуйте AWS Medical Transcribe з кастомним словником.

Скільки термінів потрібно для кастомного словника?

Для помітного ефекту достатньо 100-500 специфічних термінів. Boosting з boost=15 підвищує точність на 40% для цих слів.

Чим відрізняється boosting від fine-tuning?

Boosting — швидкий метод без перенавчання, підходить для малої кількості термінів. Fine-tuning потребує розмічених даних і дає кращу якість для цілої доменної області.

Який WER вважається прийнятним для юридичних диктовок?

Для юридичних документів цільовий WER менше 10%, оскільки помилки в іменах і датах критичні. Досягається комбінацією словника та посткорекції.

Чи можна використовувати LLM для корекції STT-помилок?

Так, GPT-4 з prompt на доменні терміни виправляє помилки в контексті. Однак це збільшує затримку та вартість; простіше застосовувати словникову заміну.

Яка модель STT найкраща для медичної лексики?

Найкращий результат дає донавчений Whisper на медичних транскриптах — WER 8-15%. Для швидкого старту використовуйте AWS Medical Transcribe з кастомним словником.

Скільки термінів потрібно для кастомного словника?

Для помітного ефекту достатньо 100-500 специфічних термінів. Boosting з boost=15 підвищує точність на 40% для цих слів.

Чим відрізняється boosting від fine-tuning?

Boosting — швидкий метод без перенавчання, підходить для малої кількості термінів. Fine-tuning потребує розмічених даних і дає кращу якість для цілої доменної області.

Який WER вважається прийнятним для юридичних диктовок?

Для юридичних документів цільовий WER менше 10%, оскільки помилки в іменах і датах критичні. Досягається комбінацією словника та посткорекції.

Чи можна використовувати LLM для корекції STT-помилок?

Так, GPT-4 з prompt на доменні терміни виправляє помилки в контексті. Однак це збільшує затримку та вартість; простіше застосовувати словникову заміну.

STT для спеціалізованої лексики (медицина, юриспруденція, техніка)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

STT для спеціалізованої лексики (медицина, юриспруденція, техніка)

Середній

від 1 тижня до 3 місяців

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1250
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Стандартні STT-моделі навчені на загальному корпусі, але специфічні терміни — «діоксид кремнію», «апеляційне визначення», «мікроконтролер STM32F407» — часто розпізнаються некоректно. У медичних диктовках WER сягає 25–30%, а половина термінів потребує постредагування. Для юристів помилки в іменах і датах можуть коштувати судового позову. Ми вирішуємо це комбінацією boosting, кастомних словників та fine-tuning Whisper. У нас 5+ років досвіду в NLP та 30+ проєктів з кастомізації STT.

Наприклад, у проєкті для мережі клінік ми знизили WER з 28% до 12% за два тижні, використовуючи комбінацію boosting та посткорекції. Це заощадило лікарям 40% часу на розшифровку. В іншому кейсі для юридичної фірми boosting юридичних фраз з boost=18 зменшив WER за іменами суддів та статтями кодексу втричі. Для технічної лексики (наприклад, STM32, REST API) boosting з адаптивними фразами також ефективний.

Як покращити розпізнавання спеціалізованої лексики?

Найшвидший метод — Custom Vocabulary / Boosting. Він не потребує перенавчання і дає приріст точності на рідкісних термінах у 2–3 рази. Наприклад, boosting 15 медичних фраз з boost=15 підвищує точність їх розпізнавання на 40%. Адаптивні фрази можна задати для Google STT, AWS Transcribe та Azure Speech.

# Google STT — адаптивні фрази
from google.cloud import speech

speech_context = speech.SpeechContext(
    phrases=[
        "мерцательная аритмия",
        "фибрилляция желудочков",
        "атриовентрикулярная блокада",
        "ЭКГ",
        "QRS-комплекс"
    ],
    boost=15.0  # від 1 до 20
)
config = speech.RecognitionConfig(
    speech_contexts=[speech_context],
    language_code="ru-RU"
)

Другий метод — посткорекція через словник з fuzzy matching. Він ловить фонетичні помилки, не сповільнюючи обробку.

from fuzzywuzzy import fuzz

DOMAIN_TERMS = {
    "дексаметозон": "дексаметазон",
    "миокарда инфаркт": "инфаркт миокарда",
    "гипотиреоз": "гипотиреоз",
}

def correct_medical_terms(text: str, threshold: int = 80) -> str:
    words = text.split()
    for i, word in enumerate(words):
        for wrong, correct in DOMAIN_TERMS.items():
            if fuzz.ratio(word.lower(), wrong) >= threshold:
                words[i] = correct
    return " ".join(words)

Коли boosting не допомагає?

Boosting слабо впливає на синоніми та граматичні конструкції. Якщо стандартна модель плутає «экстрасистолия» і «экстросистолия», boosting виправить це. Але якщо вона розпізнає «мерцательная аритмия» як «мерцательная аритмия» з помилкою в закінченні — boosting безсилий. Тут потрібна посткорекція, яка замінює цілі фрази за шаблоном.

Чому комбінація методів дає кращий результат?

Boosting ефективний для десятків термінів, але не справляється з синонімією та граматикою. Посткорекція виправляє фонетику, але потребує словника. Разом вони перекривають слабкі місця одне одного. За даними Microsoft Research, комбінований підхід знижує WER на 50–80% без витрат на розмітку.

Що входить в адаптацію STT під ваш домен?

Ми надаємо під ключ:

словник доменної лексики (500–5000 термінів);
конфігурацію boosting для хмарних STT (Google, AWS, Azure);
пайплайн посткорекції з точністю 95%+;
звіт по WER до та після адаптації;
навчання операторів роботі з доопрацьованою системою.

Порівняння методів

Метод	Час впровадження	Зниження WER	Необхідні дані
Boosting	1–2 дні	20–40%	Тільки список термінів
Посткорекція	2–3 дні	10–30%	Словник термінів з варіантами
Fine-tuning Whisper	2–4 тижні	50–70%	10+ годин диктовок
Комбінований підхід	3–5 днів	50–80%	Мінімальні вимоги

Типовий WER за доменами

Домен	Стандартна модель	Після адаптації
Медицина	25–30%	8–15%
Юриспруденція	20–25%	5–10%
Техніка	15–20%	5–8%

Приклад налаштування boosting для AWS Transcribe

{
  "VocabularyName": "medical-phrases",
  "LanguageCode": "ru-RU",
  "Phrases": ["экстрасистолия", "атеросклеротический", "эндопротезирование"],
  "VocabularyFilter": {
    "VocabularyFilterName": "medical-filter",
    "VocabularyFilterMethod": "mask"
  }
}

Процес роботи

Аналіз корпусу — виділяємо рідкісні терміни та типові помилки розпізнавання. На цьому етапі формуємо первинний словник.
Конфігурація boosting — налаштовуємо адаптивні фрази для хмарних STT. Для кожного сервісу (Google, AWS, Azure) оптимізуємо параметри boost.
Посткорекція — створюємо словник доменних термінів з fuzzy matching. Враховуємо фонетичні варіанти та друкарські помилки.
Тестування — вимірюємо WER на репрезентативній вибірці, ітеративно покращуємо. Зазвичай достатньо 2–3 ітерацій.
Деплой та моніторинг — впроваджуємо пайплайн та відстежуємо якість у продакшені. Налаштовуємо автоматичні сповіщення при рості WER.

Терміни та вартість

Словниковий підхід (boosting + посткорекція) займає 2–3 дні. Fine-tuning Whisper — 2–4 тижні, включаючи збір та розмітку даних. Вартість адаптації розраховується індивідуально — залежить від обсягу корпусу, кількості термінів та обраних методів. Економія на постредагуванні після адаптації сягає 70%, а термін окупності інвестицій — 3–6 місяців.

Додаткові покращення

Для критичних доменів (медицина, юриспруденція) boost ефективніший при вказівці форми слова в кожному контексті. Якщо даних достатньо, fine-tuning Whisper дає WER 8–15% на медичних даних проти 25% у стандартної моделі. При малому обсязі аудіо (менше 100 годин) використовуємо boosting та посткорекцію — результат близький до донавчання за менші терміни.

Гарантія: на всіх проєктах фіксуємо цільовий WER та підтверджуємо його на тестовій вибірці. Досвід команди — 5+ років, сертифікати AWS та GCP. Замовте безкоштовну діагностику вашого корпусу — ми оцінимо поточний WER та підберемо оптимальне рішення. Зв'яжіться з нами для консультації.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.