Реалізація кастомного словника для STT-системи

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Реалізація кастомного словника для STT-системи
Простий
від 1 дня до 3 днів
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    901
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1119
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    853

Реалізація кастомного словника для STT-системи Кастомний словник — найшвидший спосіб покращити розпізнавання специфічних термінів, імен та абревіатур без перенавчання моделі. Працює як підказка STT-движку: "Звертай особливу увагу на ці слова". ### Реалізація для основних провайдерів AWS Transcribe Custom Vocabulary:```python

import boto3

transcribe = boto3.client('transcribe')

Создаём словарь из файла (S3)

transcribe.create_vocabulary( VocabularyName='corporate-terms-v1', LanguageCode='ru-RU', VocabularyFileUri='s3://my-bucket/vocabulary.txt' )

Формат файла vocabulary.txt:

Phrase\tSoundsLike\tIPA\tDisplayAs

Б-Ф-И-О\tбэ эф и о\t\tБФИО

ИНН\tин эн эн\t\tИНН

**Azure Custom Speech**:python

Добавляем domain adaptation data через Azure Portal или REST API

Поддерживает: pronunciation dictionary, phrase list

import requests

phrase_list = { "kind": "PhraseList", "locale": "ru-RU", "phrases": ["ОГРН", "СНИЛС", "КПП", "расчётный счёт"] } **faster-whisper з підказками через initial prompt**:python model = WhisperModel("large-v3", device="cuda")

Начальный промпт помогает модели ориентироваться на нужную лексику

initial_prompt = "ИНН, ОГРН, СНИЛС, КПП, расчётный счёт, генеральный директор."

segments, _ = model.transcribe( audio, initial_prompt=initial_prompt, language="ru" )