Інтеграція Yandex SpeechKit TTS для синтезу мовлення

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Інтеграція Yandex SpeechKit TTS для синтезу мовлення
Простий
~1 день
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    901
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1119
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    853

Інтеграція Yandex SpeechKit TTS для синтезу мови Yandex SpeechKit TTS - найкращий вибір для російськомовних продуктів: природна вимова, правильні наголоси, розуміння російських реалій. Голоси: Alena, Filipp, Jane, Omazh, Zahar та інші. Інфраструктура у РФ. ### Синтез через REST API```python

import requests

def synthesize(text: str, voice: str = "alena", speed: float = 1.0) -> bytes: """Синтез через Yandex SpeechKit""" response = requests.post( "https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize", headers={"Authorization": f"Api-Key {YANDEX_API_KEY}"}, data={ "text": text, "lang": "ru-RU", "voice": voice, "speed": str(speed), "format": "oggopus", # oggopus | lpcm | mp3 "sampleRateHertz": "48000", "folderId": YANDEX_FOLDER_ID, } ) response.raise_for_status() return response.content

Доступные голоса

VOICES = { "female": ["alena", "jane", "omazh", "oksana"], "male": ["filipp", "zahar", "ermil"], "premium": ["alena:premium", "filipp:premium"] # наилучшее качество } ### Параметри керування мовоюpython data = { "text": text, "speed": "0.8", # 0.1–3.0 (норма = 1.0) "emotion": "good", # good | evil | neutral (зависит от голоса) "voice": "alena", "format": "lpcm", # для телефонии "sampleRateHertz": "8000", # 8000 | 16000 | 48000 } ### SSML підтримка (v3 API)python

REST v3 для SSML и расширенного управления

headers = { "Authorization": f"Bearer {IAM_TOKEN}", "x-folder-id": FOLDER_ID } body = { "utteranceSynthesisRequest": { "text": "Привет! Как дела?", "outputAudioSpec": {"containerAudio": {"containerAudioType": "OGG_OPUS"}}, "loudnessNormalizationType": "LUFS" } }