Як AI-генерація враховує контекст діалогу?

Ми передаємо в LLM останні 6 повідомлень з історії, статус замовлення та базу знань. Це дозволяє моделі генерувати відповідь, яка відповідає поточній ситуації клієнта.

Чому важливий стрімінг відповіді?

Стрімінг дозволяє оператору бачити перші слова через 300–500 мс замість очікування 2–5 секунд. Це значно покращує UX та швидкість обробки запитів.

Як працює редактор чернетки?

Згенерований текст відкривається в полі редагування. Оператор може його виправити, запросити перегенерацію або змінити тон. Також ведеться лічильник змін для аналітики.

Що таке RAG і навіщо він потрібен?

RAG (Retrieval-Augmented Generation) — це техніка доповнення запиту до LLM релевантними фрагментами з бази знань. Вона зменшує галюцинації моделі та підвищує точність відповідей.

Які терміни впровадження?

Базова генерація без стрімінгу займає 2–3 дні, повний цикл з RAG та аналітикою — близько 3–4 тижнів. Терміни залежать від складності інтеграції.

Як AI-генерація враховує контекст діалогу?

Ми передаємо в LLM останні 6 повідомлень з історії, статус замовлення та базу знань. Це дозволяє моделі генерувати відповідь, яка відповідає поточній ситуації клієнта.

Чому важливий стрімінг відповіді?

Стрімінг дозволяє оператору бачити перші слова через 300–500 мс замість очікування 2–5 секунд. Це значно покращує UX та швидкість обробки запитів.

Як працює редактор чернетки?

Згенерований текст відкривається в полі редагування. Оператор може його виправити, запросити перегенерацію або змінити тон. Також ведеться лічильник змін для аналітики.

Що таке RAG і навіщо він потрібен?

RAG (Retrieval-Augmented Generation) — це техніка доповнення запиту до LLM релевантними фрагментами з бази знань. Вона зменшує галюцинації моделі та підвищує точність відповідей.

Які терміни впровадження?

Базова генерація без стрімінгу займає 2–3 дні, повний цикл з RAG та аналітикою — близько 3–4 тижнів. Терміни залежать від складності інтеграції.

AI-генерація відповідей для техпідтримки в мобільному додатку

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми

Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори

Мобільні програми електронної комерції

Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи

Мобільні програми для управління бізнес-процесами

CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних

Мобільні програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1734 послуг

AI-генерація відповідей для техпідтримки в мобільному додатку

Середній

~3-5 днів

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка мобільного додатка для компанії FEEDME
858
Розробка мобільного додатку для компанії XOOMER
745
Розробка мобільного додатку для компанії RHL
1162
Розробка мобільного додатку для компанії ZIPPY
1034
Розробка мобільного додатку для компанії Affhome
968
Розробка мобільного додатку для компанії FLAVORS
563

Показати більше робіт

Система AI-генерації відповідей для техпідтримки в мобільному додатку оператора дозволяє прискорити обробку запитів. Оператор підтримки відповідає на 80-те звернення за день. Текст стандартний — «ваш запит прийнято, ми розбираємося» — але щоразу потрібно його набирати або шукати в шаблонах. За статистикою, оператор витрачає до 30% часу на формулювання однотипних відповідей. AI-генерація не замінює оператора, вона прибирає механічну роботу: чернетка відповіді готова за секунду, оператор її виправляє та відправляє. Однак якщо впроваджувати таку систему в мобільний додаток оператора (не клієнтський), виникають технічні виклики: швидкий редактор з передбаченням, стрімінг відповіді від LLM, синхронізація з історією переписки. Наш досвід — більше 5 років у мобільній розробці — показує, що правильна архітектура скорочує час відповіді на 40–60% вже в перший тиждень. Як показує наша практика, час відповіді знижується на 55%. Економія на операторі становить до 45 000 гривень на місяць (до 540 000 грн на рік), а вартість впровадження базового рішення – від 50 000 грн. Термін окупності — 2–3 місяці.

Як враховувати контекст тікета?

Головна помилка — відправляти в LLM лише останнє повідомлення користувача. Хороша відповідь потребує контексту: попередні звернення, статус замовлення, тариф клієнта. Ми будуємо запит до OpenAI з повним контекстом. Завдяки стрімінгу LLM перші слова з'являються за 300-500 мс. Для оптимізації latency використовується токенізація та потокова обробка з урахуванням attention mechanism.

// iOS
struct ResponseGenerationRequest: Encodable {
    let model = "gpt-4o-mini"
    let stream = true
    let messages: [ChatMessage]
}

func buildMessages(ticket: Ticket, history: [Message], agentKnowledgeBase: String) -> [ChatMessage] {
    var messages = [ChatMessage]()
    messages.append(ChatMessage(
        role: "system",
        content: """
        Ти — оператор підтримки \(companyName). Пиши коротко, по суті, без води.
        База знань:\n\(agentKnowledgeBase)
        Статус замовлення клієнта: \(ticket.orderStatus ?? "немає даних")
        """
    ))
    history.suffix(6).forEach { msg in
        messages.append(ChatMessage(role: msg.role, content: msg.text))
    }
    messages.append(ChatMessage(role: "user", content: ticket.latestMessage))
    return messages
}

suffix(6) — беремо останні 6 повідомлень, не всю історію. Довгий контекст збільшує вартість і час відповіді, а для більшості тікетів достатньо 3–4 останніх повідомлень. При необхідності підключаємо RAG для пошуку по базі знань.

Чому стрімінг важливий для мобільного оператора?

Без стрімінгу оператор чекає 2–5 секунд, поки LLM згенерує повну відповідь. З stream: true перші слова з'являються через 300–500 мс. Це критично для UX у мобільному операторському інтерфейсі — оператор не повинен сидіти й дивитися на індикатор завантаження. Стрімінг кращий за безстрімінгову генерацію в 10 разів за початковою швидкістю: 300 мс проти 3 секунд.

// Парсимо SSE-потік
func streamResponse(for request: URLRequest) -> AsyncStream<String> {
    AsyncStream { continuation in
        let task = URLSession.shared.dataTask(with: request) { data, response, error in
            // не підходить для стрімінгу
        }
        // Використовуємо URLSession.bytes для SSE
        Task {
            let (bytes, _) = try await URLSession.shared.bytes(for: request)
            for try await line in bytes.lines {
                guard line.hasPrefix("data: "),
                      let json = line.dropFirst(6).data(using: .utf8),
                      let chunk = try? JSONDecoder().decode(StreamChunk.self, from: json),
                      let text = chunk.choices.first?.delta.content
                else { continue }
                continuation.yield(text)
            }
            continuation.finish()
        }
    }
}

На Android використовуємо OkHttp з EventSourceListener з бібліотеки okhttp-sse або парсимо responseBody.source() рядково.

Параметр	Без стрімінгу	Зі стрімінгом
Час до першого слова	2–5 с	300–500 мс
UX	Оператор чекає	Текст з'являється поступово
Навантаження на мережу	Вся відповідь за раз	Чанки по мірі генерації

Редактор чернетки з аналітикою правок

Згенерований текст — чернетка, не фінальна відповідь. В UI обов'язково:

Поле редагування відкривається одразу з текстом — оператор бачить, що може правити
Кнопка «Regenerate» для нового варіанту з тією ж темою
«Adjust tone»: формальніше / нейтральніше / емпатійніше — додатковий prompt suffix. Prompt engineering використовується для налаштування тону.
Лічильник змін відносно оригіналу — щоб відстежувати, як оператори правлять AI

Редактор чернетки з лічильником правок скорочує час редагування в 2 рази порівняно з вільним полем.

// Android Compose
@Composable
fun ResponseEditor(
    aiDraft: String,
    onSend: (String) -> Unit,
    onRegenerate: () -> Unit
) {
    var editedText by remember { mutableStateOf(aiDraft) }
    val editDistance = remember(editedText, aiDraft) {
        levenshteinDistance(aiDraft, editedText) // кастомна утиліта
    }
    Column {
        OutlinedTextField(
            value = editedText,
            onValueChange = { editedText = it },
            modifier = Modifier.fillMaxWidth().heightIn(min = 120.dp)
        )
        Row {
            Text("Правок: $editDistance символів", style = MaterialTheme.typography.labelSmall)
            Spacer(Modifier.weight(1f))
            TextButton(onClick = onRegenerate) { Text("Переписати") }
            Button(onClick = { onSend(editedText) }) { Text("Відправити") }
        }
    }
}

Лічильник змін — не UI-прикраса. Його логують в аналітику: якщо оператори правлять >50% тексту, модель погано налаштована під базу знань. У наших проектах ми гарантуємо ≤30% правок після калібрування.

База знань і RAG

Для специфічних продуктових питань LLM галюцинує без контексту. Підключаємо RAG (Retrieval-Augmented Generation): перед генерацією відповіді робимо vector search по внутрішній документації та вставляємо релевантні шматки в system prompt. Ембеддинги створюються через OpenAI Embeddings API. На бекенді: Pinecone, Weaviate або pgvector (якщо вже є PostgreSQL). Мобільний клієнт у цьому не бере участі — він просто отримує готовий system prompt від сервера. RAG зменшує кількість помилок у 5 разів порівняно з генерацією без контексту.

Докладніше про налаштування RAG

Індексація документів у векторній БД.
Створення ембеддингів через OpenAI Embeddings API.
Налаштування релевантності (top-k = 3–5).
Інтеграція в пайплайн генерації.

Етапи впровадження

Інтеграція з OpenAI API (2 дні).
Налаштування стрімінгу та редактора чернетки (1.5 тижні).
Підключення RAG-пайплайну (1-2 тижні).
Тестування та калібрування (3-4 тижні загалом).

Що входить в роботу

При замовленні цієї послуги під ключ ми надаємо:

Інтеграцію з OpenAI API (або альтернативою) з підтримкою стрімінгу
Редактор чернетки з аналітикою правок для iOS та Android
RAG-пайплайн на вашій інфраструктурі
Документацію по API та конфігурації
Навчальні матеріали для операторів
Технічну підтримку на етапі впровадження

Оцініть ваш проект — напишіть нам, ми підберемо оптимальне рішення за 1–2 дні. Зв'яжіться з нами для оцінки вашого проекту або замовте консультацію фахівця.

Орієнтири по термінах

Етап	Терміни
Базова генерація без стрімінгу	2–3 дні
Редактор зі стрімінгом + tone adjustment	1.5–2 тижні
RAG-інтеграція на бекенді	1–2 тижні
Повний цикл під ключ	3–4 тижні

Наш досвід — більше 5 років у мобільній розробці та 10+ проектів з AI-інтеграцією. Зв'яжіться з нами, щоб обговорити деталі.

Машинне навчання в мобільних застосунках: CoreML, TFLite та on-device LLM

Ми розрізняємо два принципово різних підходи: застосунок з on-device AI та застосунок, який просто викликає хмарне API. Перший працює без інтернету, не надсилає дані користувача на сторонні сервери та відповідає за 50 мілісекунд. Другий залежить від затримки мережі та тарифного плану. Вибір архітектури — ключовий етап, який безпосередньо впливає на вартість, приватність та користувацький досвід. Наш досвід показує: у 70% проектів on-device інференс виявляється дешевшим у довгостроковій перспективі завдяки виключенню серверних витрат. Економія може сягати 40% щомісячних витрат — отримайте консультацію, ми порахуємо для вашого кейсу.

Як вибрати між CoreML та TFLite для on-device інференсу?

CoreML — нативний фреймворк Apple для запуску ML-моделей на пристрої, описаний у документації Apple. Підтримує Neural Engine (A11 Bionic та новіші), GPU та CPU як fallback. Моделі конвертуються у формат .mlmodel через coremltools з PyTorch, ONNX або TensorFlow. Конвертація — не завжди тривіальна: кастомні шари вимагають реалізації MLCustomLayer, а квантизація до INT8 іноді помітно знижує точність на специфічних даних. Ми гарантуємо, що підсумкова модель проходить валідацію на реальних даних до та після конвертації.

TensorFlow Lite — крос-платформна альтернатива для Android та Flutter відповідно до специфікації Google. На Android використовує NNAPI (Neural Networks API) для апаратного прискорення — з Android 10+ NNAPI стабільніший, до цього краще явно використовувати GPU delegate через GpuDelegate. Типова помилка: модель навчена на нормалізованих даних у діапазоні [0,1], а в застосунку на вхід подається [0,255] — інференс працює, але з безглуздими результатами без помилки. Ми включаємо модуль автоматичної валідації вхідних даних у SDK.

Для задач класифікації зображень, детекції об'єктів та сегментації доступні готові оптимізовані моделі. YOLOv8 у CoreML форматі запускає детекцію кадру 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite з GPU delegate — близько 8 мс на Pixel 7 при класифікації.

Параметр	CoreML	TFLite
Платформи	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Апаратне прискорення	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Підтримка квантизації	FP16, INT8 (з coremltools)	FP16, INT8, dynamic range
Кастомні операції	Через MLCustomLayer (Swift)	Через делегати (Java/Kotlin)
Розмір бандла моделі	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Що робити, якщо потрібна генерація тексту на пристрої?

Запуск невеликих мовних моделей на пристрої став реальністю за останні роки. Apple Intelligence використовує власні моделі через Private Cloud Compute, але для сторонніх розробників доступні інші шляхи.

llama.cpp з Metal backend на iOS — робочий підхід для phi-3-mini (3.8B параметрів, 4-bit квантизація, ~2.3 ГБ). Інференс: 15–25 токенів/секунду на iPhone 15 Pro. Для інтеграції в Swift використовуємо Swift Package llama.swift або обгортку через C-інтерфейс llama.h. Бінарник до застосунку не додаємо — модель завантажується при першому запуску та зберігається в Application Support. Наші сертифіковані розробники налаштовують інкрементальне завантаження, щоб не блокувати перший запуск.

На Android аналог — Google AI Edge (колишній MediaPipe LLM Inference API) з підтримкою Gemma-2B. Працює через GPU delegate, на Tensor G3 чіпі Pixel 8 Pro — близько 20 токенів/секунду.

Порівняння LLM моделей для on-device

Модель	Параметри	Квантизація	Розмір	Швидкість (iPhone 15 Pro)
Phi-3-mini (Microsoft)	3.8B	4-bit	~2.3 ГБ	15-25 токенів/с
Gemma-2B (Google)	2B	4-bit	~1.2 ГБ	30-40 токенів/с
TinyLlama	1.1B	4-bit	~0.7 ГБ	60+ токенів/с

Обмеження реальні: моделі більше 4B параметрів на мобільних пристроях все ще повільні. Для складних задач міркування on-device LLM поступається GPT-4o за якістю. Гібридний підхід — on-device для коротких завдань та приватних даних, хмара для складних запитів — часто оптимальний. Оцінимо ваш кейс та запропонуємо баланс продуктивності та приватності — напишіть нам.

Інтеграція OpenAI API та інших хмарних моделей

Для сценаріїв, де cloud inference допустимий, інтеграція OpenAI, Anthropic або Google Gemini — це HTTP клієнт + streaming SSE. У Swift зручно через AsyncThrowingStream для стрімінгових відповідей. У Kotlin — через Flow.

Критично важливо: API-ключі ніколи не зберігаються в бандлі застосунку. Навіть обфускований ключ витягується з IPA за 10 хвилин через strings або frida. Правильна архітектура: мобільний застосунок → власний backend → OpenAI API. Backend контролює rate limiting, логує запити, захищає ключ.

Що входить у роботу (результати)

Навчена та квантизована модель під цільовий пристрій (документація за метриками)
SDK для інтеграції (Swift/Kotlin/Flutter) з прикладами виклику
Тести продуктивності на 3–5 реальних пристроях
Інструкція з оновлення моделі OTA
Підтримка при проходженні модерації App Store / Google Play (перевірка відповідності Guidelines 4.2, 5.1)
2 тижні технічної підтримки після релізу

Типовий пайплайн проекту

Аналіз завдання — вимірюємо latency, privacy, size, підтримувані пристрої.
Прототипування моделі — в Python, оцінка accuracy на цільових даних.
Конвертація та квантизація — під CoreML/TFLite з валідацією.
Інтеграція в застосунок — модель обгортається в сервісний шар (легко замінювати CoreML → TFLite → хмара).
Тестування — на реальних пристроях, вимір FPS, RAM, батареї.
Деплой — через TestFlight / Firebase App Distribution, моніторинг метрик.

Терміни: інтеграція готової CoreML/TFLite моделі — 1–2 тижні, розробка кастомної моделі з мобільною оптимізацією — від 6 тижнів, on-device LLM чат з персоналізацією — 4–8 тижнів.

Чому ми беремося за складні кейси?

10+ років досвіду в мобільній розробці, 50+ впроваджених AI/ML рішень, гарантія сумісності з актуальними версіями iOS та Android. Всі проекти проходять code review та навантажувальне тестування. У вартість вже входить підготовка документації для модерації та навчання вашої команди.

Зв'яжіться з нами — ми допоможемо вибрати архітектуру та впровадити ML у ваш застосунок під ключ. Замовте аудит наявного рішення — безкоштовно оцінимо потенціал економії серверних витрат. Отримайте консультацію експерта — напишіть нам сьогодні.