Реалізація розпізнавання спеціалізованої лексики (медичної, юридичної, технічної) Стандартні STT-моделі навчені на загальному корпусі. Специфічні терміни - "діоксид кремнію", "апеляційне визначення", "мікроконтролер STM32F407" - часто розпізнаються некоректно, що робить транскрипт непридатним без постредагування. ### Методи адаптації 1. Custom Vocabulary / Boosting - найшвидший підхід, не вимагає перенавчання:```python
Google STT — адаптивные фразы
from google.cloud import speech
speech_context = speech.SpeechContext(
phrases=[
"мерцательная аритмия",
"фибрилляция желудочков",
"атриовентрикулярная блокада",
"ЭКГ",
"QRS-комплекс"
],
boost=15.0 # от 1 до 20
)
config = speech.RecognitionConfig(
speech_contexts=[speech_context],
language_code="ru-RU"
)
**2. Post-correction через словник** - знаходимо фонетично схожі слова та замінюємо:python
from fuzzywuzzy import fuzz
DOMAIN_TERMS = { "дексаметозон": "дексаметазон", "миокарда инфаркт": "инфаркт миокарда", "гипотиреоз": "гипотиреоз", }
def correct_medical_terms(text: str, threshold: int = 80) -> str: words = text.split() for i, word in enumerate(words): for wrong, correct in DOMAIN_TERMS.items(): if fuzz.ratio(word.lower(), wrong) >= threshold: words[i] = correct return " ".join(words)
Терміни: словниковий підхід - 2-3 дні. Fine-tuning - 2-4 тижні з урахуванням збору даних.







