Реалізація кастомного словника для STT-системи Кастомний словник — найшвидший спосіб покращити розпізнавання специфічних термінів, імен та абревіатур без перенавчання моделі. Працює як підказка STT-движку: "Звертай особливу увагу на ці слова". ### Реалізація для основних провайдерів AWS Transcribe Custom Vocabulary:```python
import boto3
transcribe = boto3.client('transcribe')
Создаём словарь из файла (S3)
transcribe.create_vocabulary( VocabularyName='corporate-terms-v1', LanguageCode='ru-RU', VocabularyFileUri='s3://my-bucket/vocabulary.txt' )
Формат файла vocabulary.txt:
Phrase\tSoundsLike\tIPA\tDisplayAs
Б-Ф-И-О\tбэ эф и о\t\tБФИО
ИНН\tин эн эн\t\tИНН
**Azure Custom Speech**:python
Добавляем domain adaptation data через Azure Portal или REST API
Поддерживает: pronunciation dictionary, phrase list
import requests
phrase_list = {
"kind": "PhraseList",
"locale": "ru-RU",
"phrases": ["ОГРН", "СНИЛС", "КПП", "расчётный счёт"]
}
**faster-whisper з підказками через initial prompt**:python
model = WhisperModel("large-v3", device="cuda")
Начальный промпт помогает модели ориентироваться на нужную лексику
initial_prompt = "ИНН, ОГРН, СНИЛС, КПП, расчётный счёт, генеральный директор."
segments, _ = model.transcribe( audio, initial_prompt=initial_prompt, language="ru" )







