Реализация кастомного голоса для бренда (Custom Voice)
Кастомный голос — уникальное звучание, которое ассоциируется с конкретным брендом. Банки, телеком-операторы и крупные ретейлеры инвестируют в собственные голоса для дифференциации и узнаваемости.
Варианты создания брендового голоса
Azure Custom Neural Voice — наиболее доступный путь к профессиональному результату:
- Запись 2 000–3 000 фраз диктором (~8–10 часов)
- Загрузка в Azure Custom Neural Voice Studio
- Обучение: 20–30 часов вычислений
- Результат: полностью кастомный Neural голос
ElevenLabs Voice Cloning Professional:
- Требует Professional план ($99/мес)
- 30–60 минут записей диктора
- Fine-tuning под конкретный голос
- MOS (Mean Opinion Score) 4.0–4.4 из 5
Self-hosted XTTS fine-tuning:
- 30–60 минут аудио с транскрипциями
- Дообучение XTTS v2 на собственном GPU
- Полный контроль данных
Требования к записи голосового таланта
Технические требования:
- Частота: 24 kHz минимум, 48 kHz рекомендуется
- Формат: WAV, 16-bit
- Тихая студия: SNR > 40 дБ
- Без реверберации
Для Azure Custom Neural Voice:
- 2 000+ высказываний (по 5–15 слов каждое)
- Равномерное распределение фонем
- Одинаковые условия записи всех сессий
Azure Custom Neural Voice (Lite) через Portal
import requests
# После обучения модели получаем endpoint_id
endpoint_id = "your-custom-voice-endpoint-id"
def synthesize_brand_voice(text: str) -> bytes:
ssml = f"""
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis'
xml:lang='ru-RU'>
<voice name='CustomNeural' endpoint='{endpoint_id}'>
{text}
</voice>
</speak>"""
# Синтез через Azure SDK
speech_config = speechsdk.SpeechConfig(
subscription=AZURE_KEY, region="westeurope"
)
speech_config.endpoint_id = endpoint_id
...
Стоимость проекта
- Запись диктора (студия, 8–10 часов): 50 000–150 000 руб.
- Обучение Azure Custom Neural Voice: $800–1200
- Разработка integration pipeline: 3–5 дней
- Итого бюджет: от $3 000 до $10 000
Временные рамки: от записи до рабочего голоса — 3–4 недели.







