Інтеграція SaluteSpeech (Сбер) для розпізнавання мови

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Інтеграція SaluteSpeech (Сбер) для розпізнавання мови
Простий
від 1 дня до 3 днів
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    901
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1119
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    853

Інтеграція SaluteSpeech (Сбер) для розпізнавання мови SaluteSpeech — мовні технології Ощадбанку з фокусом російською мовою. Інфраструктура в РФ, ГОСТ-сумісність, можливість on-premise розгортання. Особливо гарний для банківського, фінансового та державного секторів. ### Технічні характеристики - WER російською розмовною: 10-14% - Затримка потокового розпізнавання: 200-400 мс - Підтримка 8kHz і 16kHz аудіо - Діарізація до 10 розмовляючих ### REST API інтеграція```python

import requests import base64

Получение токена

def get_token(): response = requests.post( "https://ngw.devices.sberbank.ru:9443/api/v2/oauth", headers={ "Authorization": f"Basic {base64.b64encode(f'{CLIENT_ID}:{CLIENT_SECRET}'.encode()).decode()}", "RqUID": "unique-request-id", "Content-Type": "application/x-www-form-urlencoded" }, data={"scope": "SALUTE_SPEECH_PERS"} ) return response.json()["access_token"]

Транскрипция

def transcribe(audio_bytes: bytes, token: str): response = requests.post( "https://smartspeech.sber.ru/rest/v1/speech:recognize", headers={ "Authorization": f"Bearer {token}", "Content-Type": "audio/x-pcm;bit=16;rate=16000" }, data=audio_bytes ) return response.json()["result"][0]["normalized_text"]