Реалізація синтезу мовлення (Text-to-Speech) у мобільному застосунку

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми
Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори
Мобільні програми електронної комерції
Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи
Мобільні програми для управління бізнес-процесами
CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних
Мобільні програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо
Показано 1 з 1Усі 1735 послуг
Реалізація синтезу мовлення (Text-to-Speech) у мобільному застосунку
Простий
~2-3 дні
Часті запитання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_mobile-applications_feedme_467_0.webp
    Розробка мобільного додатка для компанії FEEDME
    792
  • image_mobile-applications_xoomer_471_0.webp
    Розробка мобільного додатку для компанії XOOMER
    671
  • image_mobile-applications_rhl_428_0.webp
    Розробка мобільного додатку для компанії RHL
    1097
  • image_mobile-applications_zippy_411_0.webp
    Розробка мобільного додатку для компанії ZIPPY
    969
  • image_mobile-applications_affhome_429_0.webp
    Розробка мобільного додатку для компанії Affhome
    914
  • image_mobile-applications_flavors_409_0.webp
    Розробка мобільного додатку для компанії FLAVORS
    495

Реалізація синтезу мови (Text-to-Speech) у мобільному додатку

Синтез мови — одна з небагатьох мобільних AI-функцій, де нативні API забезпечують прийнятну якість з коробки без зовнішніх залежностей. iOS AVSpeechSynthesizer та Android TextToSpeech працюють на пристрої, підтримують російську мову і не потребують інтернету. Основна робота — правильна інтеграція, керування чергою і вибір голосу.

AVSpeechSynthesizer на iOS

Базовий випадок — три рядки коду. Реальне виробництво складніше.

let synthesizer = AVSpeechSynthesizer()
let utterance = AVSpeechUtterance(string: text)
utterance.voice = AVSpeechSynthesisVoice(language: "ru-RU")
utterance.rate = 0.5 // 0.0–1.0, default = 0.5
synthesizer.speak(utterance)

Голоси на iOS діляться на «компактні» (вбудовані, ~50 МБ) та «розширені» (вища якість, ~300 МБ завантаження). Розширені голоси використовують нейромережевий синтез. Якщо пристрій їх не завантажив — AVSpeechSynthesisVoice(identifier: "com.apple.voice.enhanced.ru-RU.Milena") повертає nil. Перевірте та поверніться до компактних.

let enhanced = AVSpeechSynthesisVoice(identifier: "com.apple.voice.enhanced.ru-RU.Milena")
utterance.voice = enhanced ?? AVSpeechSynthesisVoice(language: "ru-RU")

Керування AVAudioSession обов'язкове. TTS повинен працювати навіть якщо додаток переключив сесію для запису мікрофона або відтворення музики. Використовуйте категорію .playback з mixWithOthers або .duckOthers залежно від вимог.

Android TextToSpeech: ініціалізація та керування чергою

TextToSpeech потребує асинхронної ініціалізації — поширена помилка: викликати speak() перед тим, як onInit(status) повертає SUCCESS.

val tts = TextToSpeech(context) { status ->
    if (status == TextToSpeech.SUCCESS) {
        tts.language = Locale("ru", "RU")
        // тільки тепер можна викликати speak()
    }
}

QUEUE_FLUSH — перериває поточне висловлювання і починає нове. QUEUE_ADD — додає до черги. Для послідовних сповіщень (наприклад, пошагова навігація), використовуйте QUEUE_ADD. Для відповідей помічника використовуйте QUEUE_FLUSH, щоб запобігти накопленню черги при швидкому вводі.

UtteranceProgressListener — відстежує початок і кінець висловлювання:

tts.setOnUtteranceProgressListener(object : UtteranceProgressListener() {
    override fun onStart(utteranceId: String) { /* показати індикатор */ }
    override fun onDone(utteranceId: String) { /* приховати індикатор */ }
    override fun onError(utteranceId: String) { /* обробити помилку */ }
})

Кожен виклик speak() повинен отримати унікальний utteranceId — інакше callbacks не спрацюють правильно.

Керування швидкістю та паузами

SSML (мова розмітки синтезу мови) підтримується на iOS з версії 14.0:

let ssml = "<speak><prosody rate='slow'>Увага</prosody>, <break time='500ms'/>наступна зупинка.</speak>"
let utterance = AVSpeechUtterance(ssmlRepresentation: ssml)

На Android підтримка SSML залежить від рушія (Google TTS підтримує, Samsung TTS — частково). Для критичних випадків розділіть текст на кілька викликів speak() з паузами через playSilentUtterance.

Регулювання швидкості для доступності: надайте користувачам контроль rate в налаштуваннях додатку. Старші користувачі часто віддають перевагу 0.35–0.4 замість 0.5 за замовчуванням.

Терміни

Базова інтеграція TTS з керуванням чергою та обробкою голосів — 2–3 робочих дні. Вартість розраховується індивідуально.