Реалізація голосового AI-асистента з діалоговим режимом у мобільному додатку

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми
Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори
Мобільні програми електронної комерції
Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи
Мобільні програми для управління бізнес-процесами
CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних
Мобільні програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо
Показано 1 з 1Усі 1735 послуг
Реалізація голосового AI-асистента з діалоговим режимом у мобільному додатку
Складний
~1-2 тижні
Часті запитання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_mobile-applications_feedme_467_0.webp
    Розробка мобільного додатка для компанії FEEDME
    792
  • image_mobile-applications_xoomer_471_0.webp
    Розробка мобільного додатку для компанії XOOMER
    671
  • image_mobile-applications_rhl_428_0.webp
    Розробка мобільного додатку для компанії RHL
    1097
  • image_mobile-applications_zippy_411_0.webp
    Розробка мобільного додатку для компанії ZIPPY
    969
  • image_mobile-applications_affhome_429_0.webp
    Розробка мобільного додатку для компанії Affhome
    914
  • image_mobile-applications_flavors_409_0.webp
    Розробка мобільного додатку для компанії FLAVORS
    495

Голосовий AI-ассистент з діалоговим режимом в мобільному додатку

Голосовий ассистент у діалоговому режимі — це не просто STT + GPT + TTS послідовно. Це управління станом розмови, контекстним вікном, перериванням, фоновим режимом та аудіосесією, яка конкурує з системними додатками. Саме на цих стиках зазвичай ломається «майже готова» інтеграція.

З чого складається діалоговий ассистент

Мінімальний стек:

  • Wake word / Push-to-Talk — тригер початку фрази
  • STT — трансгрипція (Whisper, Deepgram, Google STT)
  • LLM — відповідь у контексті діалогу (GPT-4o, Claude, Gemini)
  • TTS — озвучування відповіді (ElevenLabs, OpenAI TTS, системний)
  • State machine — управління станами: idle → listening → processing → speaking → idle

Без явного кінцевого автомата (state machine) код перетворюється на флаги типу isListening, isProcessing, isSpeaking, які рассинхронізуються при ошибках мережі. Це класичний источник багів з «ассистент завис та не реагує».

State machine: єдиний правильний підхід

enum AssistantState {
    case idle
    case listening
    case transcribing
    case thinking(history: [Message])
    case speaking(text: String)
    case error(Error)
}

class AssistantViewModel: ObservableObject {
    @Published private(set) var state: AssistantState = .idle

    func startListening() {
        guard case .idle = state else { return }
        state = .listening
        audioCapture.start { [weak self] audioData in
            self?.handleAudioChunk(audioData)
        }
    }

    func onSilenceDetected() {
        guard case .listening = state else { return }
        state = .transcribing
        audioCapture.stop()
        Task { await transcribeAndRespond() }
    }

    private func transcribeAndRespond() async {
        do {
            let text = try await stt.transcribe(audioCapture.buffer)
            state = .thinking(history: conversationHistory)
            let response = try await llm.chat(messages: conversationHistory + [.user(text)])
            conversationHistory.append(.user(text))
            conversationHistory.append(.assistant(response))
            state = .speaking(text: response)
            await tts.speak(response)
            state = .idle
        } catch {
            state = .error(error)
        }
    }
}

Ключове — переход в наступний стан тільки з очікуваного попереднього (guard case). Це виключає гонки при паралельних подіях.

Переривання (barge-in)

Користувач говорить поверх відповіді ассистента. Потрібно: зупинити TTS, зупинити поточний LLM-запрос, почати слухати заново.

На iOS:

func handleBargeIn() {
    tts.stopSpeaking(at: .immediate)
    currentLLMTask?.cancel()
    audioCapture.reset()
    state = .listening
    audioCapture.start { ... }
}

VAD повинен працювати паралельно під час воспроизведення. Якщо AVAudioSession в режимі .playAndRecord, мікрофон доступний одночасно з динаміком. Поріг VAD під час мови потрібно підняти, інакше эхо з динаміка буде тригерити barge-in.

Управління контекстним вікном

GPT-4o підтримує 128K токенів, але слати всю історію розмови в кожному запиті — це видатки та затримка. Стратегія:

  1. Rolling window: зберігаємо останні N повідомлень (зазвичай 10–20)
  2. Summarization: після N повідомлень запитуємо суммарі попередньої частини через окремий виклик, добавляємо як системне повідомлення
  3. Relevance filtering: для вузькоспеціалізованих ассистентів — embedding similarity для вибору релевантних фрагментів з історії

Для більшості мобільних ассистентів достатньо rolling window з 15–20 повідомлень.

TTS: вибір голосу та кешування

Стріммінг TTS — ключ до низької затримки. OpenAI TTS підтримує стріммінг: відповідь приходить чанками audio/mpeg, клієнт починає воспроизведення до отримання повного аудіо.

// Стріммовий TTS з OpenAI
func streamSpeak(text: String) async throws {
    let request = TTSRequest(model: "tts-1", input: text, voice: "nova", responseFormat: "mp3")
    let (bytes, _) = try await urlSession.bytes(for: ttsURLRequest(request))

    var audioData = Data()
    for try await byte in bytes {
        audioData.append(byte)
        if audioData.count > 8192 { // Починаємо воспроизведення після першіх 8 KB
            try audioPlayer.enqueueChunk(audioData)
            audioData = Data()
        }
    }
}

Для часто повторюваних фраз («Я слухаю», «Подождіть», «Не зрозумів») — кешуємо заранее синтезоване аудіо локально. Це убирає затримку на типові реплики.

Push-to-Talk проти Wake Word

Push-to-Talk — простіше в реалізації, нема ложних спрацьовувань, менше витрат батареї. Підходит для професійних інструментів.

Wake word через Picovoice Porcupine — завжди активен, працює on-device (< 1% CPU), підтримує кастомні слова. Інтеграція через PorcupineManager на iOS/Android.

// Android: Porcupine wake word
val porcupine = Porcupine.Builder()
    .setAccessKey(accessKey)
    .setKeyword(Porcupine.BuiltInKeyword.HEY_GOOGLE) // или кастомний .ppn файл
    .build(context)

porcupineManager = PorcupineManager.Builder()
    .setAccessKey(accessKey)
    .setKeyword(Porcupine.BuiltInKeyword.HEY_GOOGLE)
    .build(context) { keywordIndex ->
        runOnUiThread { viewModel.onWakeWordDetected() }
    }
porcupineManager.start()

Wake word у фоновому режимі на Android вимагає ForegroundService з повідомленням. Без нього система убиває процес.

Фоновий режим на iOS

Голосовой ассистент підпадає під voip або audio background mode у фреймворку Apple. Для активного прослухування потрібна audio capability в Entitlements + активна AVAudioSession. Apple може відхилити при ревью, якщо background audio не обґрунтовано — напиши в metadata review notes.

Сроки

MVP з Push-to-Talk, Whisper STT, GPT-4o, OpenAI TTS — 2–3 тижні на одній платформі. Повнофункціональний ассистент з wake word, barge-in, стріммовим TTS, управлінням контекстом, фоновим режимом — 6–10 тижнів.