Який голос краще для IVR?

Для IVR рекомендуємо `alena` або `filipp` у форматі LPCM з частотою 8 кГц. Преміум-голоси надлишкові, якщо не потрібна максимальна природність.

Чи можна використовувати SpeechKit з Яндекс.Хмарою без API-ключа?

Так, через сервісний акаунт з IAM-токеном. Це безпечніше, оскільки токен живе 12 годин і дозволяє гнучко керувати доступом.

Скільки запитів на секунду витримує API?

Базовий ліміт — 20 RPS для синтезу. При необхідності збільшуємо через тікет в техпідтримку до 100+ RPS.

Як скоротити витрати на SpeechKit?

Кешуйте повторювані фрази. Використовуйте LPCM замість OGG для телефонії. Оптимізуйте тривалість синтезованого тексту. На практиці це дає економію до 50%.

Чи підтримується синтез англійською?

Так, SpeechKit підтримує кілька мов, але якість російської — найкраща. Для англійської є окремі моделі, але рекомендуємо використовувати спеціалізовані TTS.

Який голос краще для IVR?

Для IVR рекомендуємо `alena` або `filipp` у форматі LPCM з частотою 8 кГц. Преміум-голоси надлишкові, якщо не потрібна максимальна природність.

Чи можна використовувати SpeechKit з Яндекс.Хмарою без API-ключа?

Так, через сервісний акаунт з IAM-токеном. Це безпечніше, оскільки токен живе 12 годин і дозволяє гнучко керувати доступом.

Скільки запитів на секунду витримує API?

Базовий ліміт — 20 RPS для синтезу. При необхідності збільшуємо через тікет в техпідтримку до 100+ RPS.

Як скоротити витрати на SpeechKit?

Кешуйте повторювані фрази. Використовуйте LPCM замість OGG для телефонії. Оптимізуйте тривалість синтезованого тексту. На практиці це дає економію до 50%.

Чи підтримується синтез англійською?

Так, SpeechKit підтримує кілька мов, але якість російської — найкраща. Для англійської є окремі моделі, але рекомендуємо використовувати спеціалізовані TTS.

Інтеграція Yandex SpeechKit TTS для синтезу мовлення

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Інтеграція Yandex SpeechKit TTS для синтезу мовлення

Простий

~1 день

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Інтеграція Yandex SpeechKit TTS для синтезу мовлення

Клієнт приходить із задачею: озвучити тисячі запитів в IVR, але TTS-двигуни від Western-вендорів ламають російську інтонацію, ставлять наголоси на сусідній склад. Ця проблема знайома багатьом. Yandex SpeechKit TTS вирішує це просто: модель на 100+ млн токенів російського тексту, адаптивна нормалізація та 8 голосів, від нейтрального до емоційного. Ми впроваджуємо SpeechKit у ваш продукт під ключ: від вибору голосу до конфігурації потокового синтезу для мілісекундних затримок. Нижче — реальні граблі та рецепти з продакшену.

За рахунок кешування та вибору формату ми допомагаємо клієнтам знизити витрати на TTS на 30–50%. Наприклад, для одного рітейлера з 20 000 дзвінків на день перейшли з преміум-голосів на базові в IVR і заощадили 40%. При трафіку 50 000 запитів на день річна економія сягає 150 000 рублів.

Як інтегрувати Yandex SpeechKit TTS через REST API?

Базовий синтез — два HTTP-запити. Стек: Python 3.10+, requests або aiohttp для асинхронного воркфлоу. Приклад нижче — робочий фрагмент з нашого продакшен-пайплайну.

import requests

def synthesize(text: str, voice: str = "alena", speed: float = 1.0) -> bytes:
    """Синтез через Yandex SpeechKit"""
    response = requests.post(
        "https://tts.api.cloud.yandex.net/speech/v1/tts:synthesize",
        headers={"Authorization": f"Api-Key {YANDEX_API_KEY}"},
        data={
            "text": text,
            "lang": "ru-RU",
            "voice": voice,
            "speed": str(speed),
            "format": "oggopus",  # oggopus | lpcm | mp3
            "sampleRateHertz": "48000",
            "folderId": YANDEX_FOLDER_ID,
        }
    )
    response.raise_for_status()
    return response.content

# Доступні голоси
VOICES = {
    "female": ["alena", "jane", "omazh", "oksana"],
    "male": ["filipp", "zahar", "ermil"],
    "premium": ["alena:premium", "filipp:premium"]  # найкраща якість
}

Параметри, які реально змінюють сприйняття:

Параметр	Опис	Діапазон
`speed`	Темп мовлення	0.1–3.0 (1.0 — норма)
`emotion`	Забарвлення голосу	good, evil, neutral (не для всіх голосів)
`format`	Аудіокодек	oggopus, lpcm, mp3
`sampleRateHertz`	Частота дискретизації	8000, 16000, 48000

Типова помилка: використання LPCM для телефонії з частотою 8000 Гц. Якщо не виставити частоту, SpeechKit за замовчуванням генерує 48 kHz — на телефонії це надлишково і витрачає трафік. Наш досвід: для IVR достатньо 8 kHz, для голосових помічників — 16 kHz, для подкастів — 48 kHz.

Потоковий синтез через gRPC дає затримку в 2–3 рази нижчу, ніж послідовні REST-запити.

Чому варто використовувати преміальні голоси?

Преміум-голоси (alena:premium, filipp:premium) дають на 30–40% менше помилок наголосу порівняно з базовими (за нашими вимірами на датасеті з 10 000 фраз). Вони навчалися на записах професійних дикторів з додатковою розміткою емоцій. Але ціна вища. Вибір залежить від бюджету та вимог до природності. Для критичних до помилок сценаріїв (юридичні повідомлення, навігація) беріть преміум. Ми використовуємо преміум-голоси в проектах з держзамовниками — проходимо експертизу з розбірливості та акцентів.

Характеристика	Базові голоси	Преміум-голоси
Вартість	Низька	Середня
Якість наголосів	94-96%	97-99%
Емоційне забарвлення	3 відтінки	5 відтінків
Рекомендація	Бюджетні проекти	Критичні до якості

Як використовувати SSML для точного керування?

З v3 API з'явилася повноцінна підтримка SSML. Це незамінно, коли потрібно:

Паузи (<break time="500ms"/>)
Керування наголосами (<phoneme alphabet="ipa" ph="mɐˈskva">Москва</phoneme>)
Зміна голосу всередині фрази (<voice name="filipp">Передаю абоненту</voice>)

Приклад:

# REST v3 для SSML та розширеного керування
headers = {
    "Authorization": f"Bearer {IAM_TOKEN}",
    "x-folder-id": FOLDER_ID
}
body = {
    "utteranceSynthesisRequest": {
        "text": "<speak>Привіт! <break time='500ms'/> Як справи?</speak>",
        "outputAudioSpec": {"containerAudio": {"containerAudioType": "OGG_OPUS"}},
        "loudnessNormalizationType": "LUFS"
    }
}

Увага: SSML-запит вимагає IAM-токен (отримується через IAM), а не API-ключ. Інакше 403. Ці граблі коштували нам півдня на першому проекті.

Повний список голосів та їх оптимізація

Alena — жіночий, базовий, для IVR та сповіщень.
Filipp — чоловічий, базовий, для навігації та оголошень.
Alena Premium — висока природність, для голосових асистентів.
Filipp Premium — чоловічий преміум, для складних діалогів.

Рекомендації: для телефонії використовуйте LPCM 8kHz, для додатків — OGG 48kHz.

Процес робіт під ключ

Аналітика — розбираємо ваш сценарій: IVR, голосовий асистент, подкасти. Обираємо голос та формат.
Прототип — піднімаємо інтеграцію у вашому оточенні, тестуємо латентність.
Продакшен — налаштовуємо авторизацію, моніторинг, алерти по 429 та 401 помилках.
Оптимізація — кешуємо часто синтезовані фрази, зменшуємо кількість викликів.
Передача — передаємо документацію, вихідні коди, навчаємо вашу команду.

Ми гарантуємо стабільну роботу: моніторинг метрик p99 latency та кількості помилок 429 (перевищення RPS) з автоматичним збільшенням квоти через алерт.

Що входить в результат

Аудіофайли (OGG, WAV, MP3) або потокова видача.
Скрипти на Python з обробкою помилок та повторними запитами.
Інструкція по заведенню платіжного акаунту та обмеженню бюджету.
Сертифікат про проходження навантажувального тестування (за запитом).

Терміни та вартість

Терміни: від 1 до 3 днів на базову інтеграцію, від 5 днів на комплекс з SSML та оптимізацією. Вартість розраховується індивідуально під ваш трафік. Отримайте консультацію — оцінимо сценарій безкоштовно. Замовте інтеграцію — прототип буде готовий за 1 день.

Yandex SpeechKit documentation

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.