Інтеграція Bark для генерації мови (Open Source) Bark від Suno AI - генеративна TTS-модель на архітектурі Transformer (не традиційний синтез). Чи здатна генерувати сміх, зітхання, спів, емоційне мовлення — те, що звичайні TTS не вміють. Повністю open-source (MIT). ### Можливості та обмеження Вміє: - Емоційна мова через текстові підказки [laughs], [sighs], [gasps] - Спів: ♪ текст пісні ♪ - Нелінгвістичні звуки: кашель, сміх, пауза - 13 мов з коробки, включаючи росіян -** Потоковий синтез (тільки batch)
- Детермінований висновок (кожен запит дає різний результат) - Робота на CPU з прийнятною швидкістю (потрібний GPU) ### Встановлення та базове використання```python from bark import SAMPLE_RATE, generate_audio, preload_models import soundfile as sf import numpy as np
preload_models() # Загружает ~6 GB моделей
text = """ Добро пожаловать! [laughs] Рад вас видеть. Ваш заказ готов. [clears throat] Подождите минуту. """
audio_array = generate_audio(
text,
history_prompt="v2/ru_speaker_3", # предустановленные голоса
)
sf.write("output.wav", audio_array, SAMPLE_RATE)
### Вимоги - GPU: мінімум 8 GB VRAM (RTX 3070+) - RAM: 16 GB - Швидкість: ~30 секунд для 10 секунд аудіо на RTX 3090 - Параметри: ~1.2 GB (text encoder) + ~1.5 GB (coarse + fine codec) ##python
from bark.generation import codec_decode, generate_coarse, generate_fine, generate_text_semantic
Создание нового пресета из референсного аудио
Требует тонкой настройки через semantic tokens







