Скільки потрібно аудіоданих для навчання TTS-моделі?

Для мінімально розбірливого голосу достатньо 2 годин чистого аудіо (близько 1000 записів). Для високої якості рекомендуємо 8–12 годин. XTTS v2 дозволяє отримати результат уже з 3–6 хвилинами еталонного голосу при fine-tuning.

Яке обладнання потрібне для навчання VITS?

Для навчання VITS на 1000 епох потрібен GPU з 24 ГБ VRAM (RTX 3090) – час навчання близько 12 годин. На A100 (40 ГБ) навчання займе ~5 годин. Ми також використовуємо хмарні кластери RunPod або Lambda Cloud для прискорення.

Чи можна навчити модель на українській мові?

Так, VITS і XTTS v2 підтримують українську мову. Ми використовуємо фонемний очищувач і кеш фонем для української мови (phoneme_cleaners, phoneme_language=uk-ua). Якість синтезу українською досягає MOS 4.2–4.5.

Що входить у результат роботи?

Ви отримуєте навчену модель (checkpoint), конфігураційні файли, скрипти інференсу, інструкцію з деплою та API для інтеграції. При необхідності надаємо ONNX-експорт для edge-пристроїв і підтримку після впровадження.

Як довго триває повний цикл створення голосу?

Повний цикл від запису датасету до production-інтеграції займає 4–6 тижнів. Підготовка та розмітка аудіо – 2–4 тижні, навчання VITS – 1–2 тижні, інтеграція та тестування – близько тижня.

Скільки потрібно аудіоданих для навчання TTS-моделі?

Для мінімально розбірливого голосу достатньо 2 годин чистого аудіо (близько 1000 записів). Для високої якості рекомендуємо 8–12 годин. XTTS v2 дозволяє отримати результат уже з 3–6 хвилинами еталонного голосу при fine-tuning.

Яке обладнання потрібне для навчання VITS?

Для навчання VITS на 1000 епох потрібен GPU з 24 ГБ VRAM (RTX 3090) – час навчання близько 12 годин. На A100 (40 ГБ) навчання займе ~5 годин. Ми також використовуємо хмарні кластери RunPod або Lambda Cloud для прискорення.

Чи можна навчити модель на українській мові?

Так, VITS і XTTS v2 підтримують українську мову. Ми використовуємо фонемний очищувач і кеш фонем для української мови (phoneme_cleaners, phoneme_language=uk-ua). Якість синтезу українською досягає MOS 4.2–4.5.

Що входить у результат роботи?

Ви отримуєте навчену модель (checkpoint), конфігураційні файли, скрипти інференсу, інструкцію з деплою та API для інтеграції. При необхідності надаємо ONNX-експорт для edge-пристроїв і підтримку після впровадження.

Як довго триває повний цикл створення голосу?

Повний цикл від запису датасету до production-інтеграції займає 4–6 тижнів. Підготовка та розмітка аудіо – 2–4 тижні, навчання VITS – 1–2 тижні, інтеграція та тестування – близько тижня.

Кастомний голос для TTS: навчання на VITS, XTTS, YourTTS

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Кастомний голос для TTS: навчання на VITS, XTTS, YourTTS

Складний

~5 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1361
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1189
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
930

Показати більше робіт

Синтез мовлення: VITS і XTTS для кастомного голосу

Власна TTS-модель дає повний контроль над голосом, мовою та стилем — без залежності від зовнішніх API і recurring costs. Актуально для створення унікального брендового голосу, синтезу на рідкісних мовах/діалектах, edge-деплою без інтернету. Ми навчили більше 15 моделей для клієнтів із ритейлу, медіа та голосових асистентів — від коротких рекламних джинглів до повноцінних діалогових систем. Гарантуємо досягнення MOS не нижче 4.0.

Чому варто навчати власну TTS-модель?

Готові хмарні TTS (Google, Yandex, Amazon) накладають обмеження: фіксований набір голосів, вартість за кожен запит, прив'язка до інтернету та затримки. Власна модель вирішує ці проблеми: ви отримуєте ексклюзивний голос, що працює офлайн, з контролем емоційного забарвлення та темпу. Наприклад, один із наших клієнтів (агрегатор доставки) заощадив $3 000 на місяць, перейшовши з платного API на свою модель, навчену на 8 годинах голосу диктора. — Клієнт із ритейлу Економія на API-запитах може сягати $50 000 на рік для великих проєктів.

Як вибрати архітектуру TTS?

Модель	Тип	Дані для навчання	Якість MOS	Швидкість інференсу
VITS	End-to-end (текст→аудіо)	2–5 год	4.2/5	Realtime ×30 на GPU
XTTS v2 (Coqui)	Zero-shot + fine-tune	3–6 хв (few-shot)	4.4/5	Realtime ×10 на GPU
YourTTS	Multilingual VITS	1–3 год	4.0/5	Realtime ×20
MATCHA-TTS	Flow-matching	2–4 год	4.3/5	Realtime ×50
StyleTTS2	Style-based	1–2 год	4.5/5	Realtime ×15

Для більшості завдань: XTTS v2 для швидкого запуску з мінімумом даних, VITS для повного навчання з чистим датасетом. XTTS v2 при fine-tuning на 6 хвилинах аудіо дає якість, порівнянну з повним VITS на 10 годинах – це підтверджено нашими вимірами MOS. Завдяки багаторічному досвіду ми підбираємо архітектуру під конкретне завдання.

Підготовка датасету

Мінімальні вимоги для якісного результату:

Формат: 22050 Hz, 16-bit, mono WAV
Довжина записів: 2–15 секунд кожен
Мінімум: 1000 записів (≈2 години) для розбірливого TTS
Рекомендується: 3000–5000 записів (≈8–12 годин) для високої якості
Текстовий скрипт: UTF-8, одна репліка на рядок

Структура датасету:

dataset/
├── wavs/
│   ├── speaker_001.wav
│   ├── speaker_002.wav
│   └── ...
├── metadata.csv          # filename|transcription
└── metadata_val.csv      # 10% для валідації

Передобробка та нормалізація:

import librosa
import soundfile as sf
import numpy as np
from pathlib import Path

def preprocess_audio_for_tts(
    input_dir: str,
    output_dir: str,
    target_sr: int = 22050
) -> dict:
    stats = {"processed": 0, "skipped": 0, "errors": []}
    Path(output_dir).mkdir(parents=True, exist_ok=True)

    for wav_path in Path(input_dir).glob("*.wav"):
        audio, sr = librosa.load(str(wav_path), sr=target_sr, mono=True)

        # Обрізаємо тишу
        audio_trimmed, _ = librosa.effects.trim(audio, top_db=20)

        # Перевіряємо довжину
        duration = len(audio_trimmed) / target_sr
        if duration < 1.5 or duration > 15.0:
            stats["skipped"] += 1
            continue

        # Нормалізація амплітуди
        audio_normalized = audio_trimmed / (np.max(np.abs(audio_trimmed)) + 1e-8)
        audio_normalized *= 0.9  # peak -0.9 дБ

        output_path = Path(output_dir) / wav_path.name
        sf.write(str(output_path), audio_normalized, target_sr, subtype="PCM_16")
        stats["processed"] += 1

    return stats

Навчання VITS

Конфігурація config.json для VITS (Coqui TTS):

{
    "model": "vits",
    "run_name": "my_tts_model",
    "epochs": 1000,
    "batch_size": 32,
    "eval_batch_size": 16,
    "num_loader_workers": 4,
    "audio": {
        "sample_rate": 22050,
        "win_length": 1024,
        "hop_length": 256,
        "num_mels": 80,
        "mel_fmin": 0,
        "mel_fmax": null
    },
    "datasets": [{
        "name": "my_dataset",
        "path": "dataset/",
        "meta_file_train": "metadata.csv",
        "meta_file_val": "metadata_val.csv"
    }]
}

Запуск навчання:

from TTS.bin.train_tts import main as train_tts
from TTS.config.shared_configs import BaseDatasetConfig
from TTS.tts.configs.vits_config import VitsConfig
from TTS.tts.datasets import load_tts_samples
from TTS.tts.models.vits import Vits, VitsAudioConfig
from TTS.trainer import Trainer, TrainerArgs

audio_config = VitsAudioConfig(
    sample_rate=22050,
    win_length=1024,
    hop_length=256,
    num_mels=80,
    mel_fmin=0,
    mel_fmax=None
)

config = VitsConfig(
    audio=audio_config,
    run_name="brand_voice_v1",
    batch_size=32,
    eval_batch_size=16,
    epochs=1000,
    text_cleaner="phoneme_cleaners",
    use_phonemes=True,
    phoneme_language="uk-ua",
    phoneme_cache_path="phoneme_cache/",
    output_path="checkpoints/",
    datasets=[BaseDatasetConfig(
        formatter="ljspeech",
        meta_file_train="metadata.csv",
        path="dataset/"
    )]
)

train_samples, eval_samples = load_tts_samples(
    config.datasets,
    eval_split=True,
    eval_split_size=0.1
)

model = Vits(config, ap=None, tokenizer=None, speaker_manager=None)

trainer = Trainer(
    TrainerArgs(),
    config,
    output_path="checkpoints/",
    model=model,
    train_samples=train_samples,
    eval_samples=eval_samples
)
trainer.fit()

XTTS v2 fine-tuning (few-shot)

XTTS v2 підтримує fine-tuning з 3–6 хвилинами аудіо:

from TTS.demos.xtts_ft_demo.xtts_demo import train_gpt

# Датасет: мінімум 100 записів по 2–6 секунд кожен
train_gpt(
    language="uk",
    num_epochs=6,
    batch_size=4,
    grad_acumm=1,
    train_csv="dataset/metadata_train.csv",
    eval_csv="dataset/metadata_eval.csv",
    output_path="xtts_ft_checkpoints/"
)

Після fine-tuning інференс із кастомним голосом:

from TTS.api import TTS

tts = TTS("tts_models/multilingual/multi-dataset/xtts_v2")
tts.tts_to_file(
    text="Ласкаво просимо до нашої компанії.",
    speaker_wav="reference_voice.wav",  # 3–10 сек еталонного аудіо
    language="uk",
    file_path="output.wav",
    model_path="xtts_ft_checkpoints/best_model.pth"
)

Як ми підходимо до навчання TTS-моделей

Наш процес включає п'ять етапів:

Аналітика: визначаємо цільову аудиторію голосу, вимоги до мови, емоцій, швидкості. Підбираємо архітектуру (VITS, XTTS, YourTTS) під завдання.
Збір і підготовка датасету: запис диктора в студії або очищення існуючих записів. Видаляємо шуми, тишу, нормалізуємо. Розмічаємо тексти.
Навчання моделі: запускаємо на GPU-кластері, моніторимо метрики (train/val loss, KL loss, grad_norm). Використовуємо ранню зупинку та чекпойнти.
Оцінка якості: прослуховуємо синтез через кожні 100 епох, порівнюємо з еталоном. Досягаємо MOS не нижче 4.0.
Деплой та інтеграція: конвертуємо в ONNX для edge або розгортаємо як gRPC/REST API. Надаємо документацію та підтримку.

Моніторинг метрик навчання

Ключові метрики в tensorboard: - loss/train_loss: має монотонно спадати - loss/val_loss: паралельно train, без розходження - loss/kl_loss: KL-дивергенція латентного простору - loss/disc_loss: дискримінатор (GAN-компонент) - grad_norm: має бути < 10, інакше вибух градієнтів

Інфраструктура навчання

GPU	Час навчання (1000 епох, VITS)	VRAM
RTX 3090 (24 GB)	~12 годин	18 GB
A100 (40 GB)	~5 годин	22 GB
2× A10G	~3 години	2×24 GB
CPU (немає GPU)	Не рекомендується	—

Хмарні варіанти: RunPod (~~$1.5/год для A100), Lambda Cloud (~~$1.1/год), Vast.ai (~$0.5–0.8/год для A100).

Post-training: деплой моделі

# ONNX експорт для edge-деплою
from TTS.utils.synthesizer import Synthesizer

synthesizer = Synthesizer(
    tts_checkpoint="checkpoints/best_model.pth",
    tts_config_path="checkpoints/config.json"
)

# Інференс
wav = synthesizer.tts("Тестова фраза для синтезу")
synthesizer.save_wav(wav, "test_output.wav")

Що входить в роботу

Навчена модель (VITS, XTTS або YourTTS) з досягнутою якістю не нижче MOS 4.0.
Датасет у чистому вигляді з розміткою та скриптами передобробки.
Конфігураційні файли та код для відтворення навчання.
Інференс-скрипти для локального та серверного використання.
API-обгортка (FastAPI/gRPC) для інтеграції у ваш сервіс.
Документація з налаштування та експлуатації.
Підтримка протягом 2 тижнів після передачі.

Терміни: підготовка датасету (запис + розмітка) — 2–4 тижні. Навчання VITS-моделі — 1–2 тижні (GPU). Інтеграція в production-сервіс з API — 1 тиждень. Повний цикл «з нуля до брендового голосу» — 4–6 тижнів. Отримайте консультацію нашого AI-інженера — ми підберемо оптимальну архітектуру та розрахуємо точні терміни. Замовте навчання TTS-моделі для вашого проєкту.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.