Как AI-генерация учитывает контекст диалога?

Мы передаём в LLM последние 6 сообщений из истории, статус заказа и базу знаний. Это позволяет модели генерировать ответ, соответствующий текущей ситуации клиента.

Почему важен стриминг ответа?

Стриминг позволяет оператору видеть первые слова через 300–500 мс вместо ожидания 2–5 секунд. Это значительно улучшает UX и скорость обработки запросов.

Что такое RAG и зачем он нужен?

RAG (Retrieval-Augmented Generation) — это техника дополнения запроса к LLM релевантными фрагментами из базы знаний. Она снижает галлюцинации модели и повышает точность ответов.

Какие сроки внедрения?

Базовая генерация без стриминга занимает 2–3 дня, полный цикл с RAG и аналитикой — около 3–4 недель. Сроки зависят от сложности интеграции.

Как AI-генерация учитывает контекст диалога?

Мы передаём в LLM последние 6 сообщений из истории, статус заказа и базу знаний. Это позволяет модели генерировать ответ, соответствующий текущей ситуации клиента.

Почему важен стриминг ответа?

Стриминг позволяет оператору видеть первые слова через 300–500 мс вместо ожидания 2–5 секунд. Это значительно улучшает UX и скорость обработки запросов.

Что такое RAG и зачем он нужен?

RAG (Retrieval-Augmented Generation) — это техника дополнения запроса к LLM релевантными фрагментами из базы знаний. Она снижает галлюцинации модели и повышает точность ответов.

Какие сроки внедрения?

Базовая генерация без стриминга занимает 2–3 дня, полный цикл с RAG и аналитикой — около 3–4 недель. Сроки зависят от сложности интеграции.

AI-генерация ответов для техподдержки в мобильном приложении

Q: Как работает редактор черновика?

Сгенерированный текст открывается в поле редактирования. Оператор может править его, запросить перегенерацию или изменить тон. Также ведётся счётчик изменений для аналитики.

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1734 услуг

AI-генерация ответов для техподдержки в мобильном приложении

Средний

~3-5 дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
858
Разработка мобильного приложения для компании XOOMER
745
Разработка мобильного приложения для компании RHL
1162
Разработка мобильного приложения для компании ZIPPY
1034
Разработка мобильного приложения для компании Affhome
968
Разработка мобильного приложения для компании FLAVORS
563

Показать больше работ

Оператор поддержки отвечает на 80-е обращение за день. Текст стандартный — «ваш запрос принят, мы разбираемся» — но каждый раз нужно его набирать или искать в шаблонах. По статистике, оператор тратит до 30% времени на формулировку однотипных ответов. AI-генерация не заменяет оператора, она убирает механическую работу: черновик ответа готов за секунду, оператор его правит и отправляет. Однако если внедрять такую систему в мобильное приложение оператора (не клиентское), возникают технические вызовы: быстрый редактор с предсказанием, стриминг ответа от LLM, синхронизация с историей переписки. Наш опыт — более 5 лет в мобильной разработке — показывает, что правильная архитектура сокращает время ответа на 40–60% уже в первую неделю. Как показывает наша практика, время ответа снижается на 55%. Экономия на операторе составляет до 45 000 рублей в месяц, а срок окупаемости — 2–3 месяца.

Как AI-генерация учитывает контекст тикета?

Главная ошибка — отправлять в LLM только последнее сообщение пользователя. Хороший ответ требует контекста: предыдущие обращения, статус заказа, тариф клиента. Мы строим запрос к OpenAI с полным контекстом:

// iOS
struct ResponseGenerationRequest: Encodable {
    let model = "gpt-4o-mini"
    let stream = true
    let messages: [ChatMessage]
}

func buildMessages(ticket: Ticket, history: [Message], agentKnowledgeBase: String) -> [ChatMessage] {
    var messages = [ChatMessage]()
    messages.append(ChatMessage(
        role: "system",
        content: """
        Ты — оператор поддержки \(companyName). Пиши кратко, по делу, без воды.
        База знаний:\n\(agentKnowledgeBase)
        Статус заказа клиента: \(ticket.orderStatus ?? "нет данных")
        """
    ))
    history.suffix(6).forEach { msg in
        messages.append(ChatMessage(role: msg.role, content: msg.text))
    }
    messages.append(ChatMessage(role: "user", content: ticket.latestMessage))
    return messages
}

suffix(6) — берём последние 6 сообщений, не всю историю. Длинный контекст увеличивает стоимость и время ответа, а для большинства тикетов достаточно 3–4 последних сообщений. При необходимости подключаем RAG для поиска по базе знаний.

Почему стриминг критичен для мобильного оператора?

Без стриминга оператор ждёт 2–5 секунд, пока LLM сгенерирует полный ответ. С stream: true первые слова появляются через 300–500 мс. Это критично для UX в мобильном операторском интерфейсе — оператор не должен сидеть и смотреть на индикатор загрузки. Стриминг лучше безстриминговой генерации в 10 раз по стартовой скорости: 300 мс против 3 секунд.

// Парсим SSE-поток
func streamResponse(for request: URLRequest) -> AsyncStream<String> {
    AsyncStream { continuation in
        let task = URLSession.shared.dataTask(with: request) { data, response, error in
            // не подходит для стриминга
        }
        // Используем URLSession.bytes для SSE
        Task {
            let (bytes, _) = try await URLSession.shared.bytes(for: request)
            for try await line in bytes.lines {
                guard line.hasPrefix("data: "),
                      let json = line.dropFirst(6).data(using: .utf8),
                      let chunk = try? JSONDecoder().decode(StreamChunk.self, from: json),
                      let text = chunk.choices.first?.delta.content
                else { continue }
                continuation.yield(text)
            }
            continuation.finish()
        }
    }
}

На Android используем OkHttp с EventSourceListener из библиотеки okhttp-sse или парсим responseBody.source() построчно.

Параметр	Без стриминга	Со стримингом
Время до первого слова	2–5 с	300–500 мс
UX	Оператор ждёт	Текст появляется постепенно
Нагрузка на сеть	Весь ответ за раз	Чанки по мере генерации

Как работает редактор черновика?

Сгенерированный текст — черновик, не финальный ответ. В UI обязательно:

Поле редактирования открывается сразу с текстом — оператор видит, что может править
Кнопка «Regenerate» для нового варианта с той же темой
«Adjust tone»: формальнее / нейтральнее / эмпатичнее — дополнительный prompt suffix
Счётчик изменений относительно оригинала — чтобы отслеживать, как операторы правят AI

// Android Compose
@Composable
fun ResponseEditor(
    aiDraft: String,
    onSend: (String) -> Unit,
    onRegenerate: () -> Unit
) {
    var editedText by remember { mutableStateOf(aiDraft) }
    val editDistance = remember(editedText, aiDraft) {
        levenshteinDistance(aiDraft, editedText) // кастомная утилита
    }
    Column {
        OutlinedTextField(
            value = editedText,
            onValueChange = { editedText = it },
            modifier = Modifier.fillMaxWidth().heightIn(min = 120.dp)
        )
        Row {
            Text("Правок: $editDistance символов", style = MaterialTheme.typography.labelSmall)
            Spacer(Modifier.weight(1f))
            TextButton(onClick = onRegenerate) { Text("Переписать") }
            Button(onClick = { onSend(editedText) }) { Text("Отправить") }
        }
    }
}

Счётчик изменений — не UI-украшение. Его логируют в аналитику: если операторы правят >50% текста, модель плохо настроена под базу знаний. В наших проектах мы гарантируем ≤30% правок после калибровки.

База знаний и RAG

Для специфических продуктовых вопросов LLM галлюцинирует без контекста. Подключаем RAG (Retrieval-Augmented Generation): перед генерацией ответа делаем vector search по внутренней документации и вставляем релевантные куски в system prompt. На бэкенде: Pinecone, Weaviate или pgvector (если уже есть PostgreSQL). Мобильный клиент в этом не участвует — он просто получает готовый system prompt от сервера.

Подробнее о настройке RAG

Индексация документов в векторной БД.
Создание эмбеддингов через OpenAI Embeddings API.
Настройка релевантности (top-k = 3–5).
Интеграция в пайплайн генерации.

Что входит в работу

При заказе этой услуги под ключ мы предоставляем:

Интеграцию с OpenAI API (или альтернативой) с поддержкой стриминга
Редактор черновика с аналитикой правок для iOS и Android
RAG-пайплайн на вашей инфраструктуре
Документацию по API и конфигурации
Обучающие материалы для операторов
Техническую поддержку на этапе внедрения

Оцените ваш проект — напишите нам, мы подберём оптимальное решение за 1–2 дня. Свяжитесь с нами для оценки вашего проекта или закажите консультацию специалиста.

Ориентиры по срокам

Этап	Сроки
Базовая генерация без стриминга	2–3 дня
Редактор со стримингом + tone adjustment	1.5–2 недели
RAG-интеграция на бэкенде	1–2 недели
Полный цикл под ключ	3–4 недели

Наш опыт — более 5 лет в мобильной разработке и 10+ проектов с AI-интеграцией. Свяжитесь с нами, чтобы обсудить детали.

AI и ML в мобильных приложениях: CoreML, TFLite и on-device модели

Мы различаем два принципиально разных подхода: приложение с on-device AI и приложение, которое просто вызывает облачное API. Первое работает без интернета, не отправляет данные пользователя на сторонние серверы и отвечает за 50 миллисекунд. Второе зависит от задержки сети и тарифного плана. Выбор архитектуры — ключевой этап, который напрямую влияет на стоимость, приватность и пользовательский опыт. Наш опыт показывает: в 70% проектов on-device инференс оказывается дешевле в долгосрочной перспективе за счёт исключения серверных затрат.

Как выбрать между CoreML и TFLite для on-device инференса?

CoreML — нативный фреймворк Apple для запуска ML-моделей на устройстве. Поддерживает Neural Engine (начиная с A11 Bionic), GPU и CPU как fallback. Модели конвертируются в формат .mlmodel через coremltools из PyTorch, ONNX или TensorFlow. Конвертация — не всегда тривиальна: кастомные слои требуют реализации MLCustomLayer, а квантизация до INT8 иногда заметно роняет точность на специфических данных. Мы гарантируем, что итоговая модель проходит валидацию на реальных данных до и после конвертации.

TensorFlow Lite — кросс-платформенная альтернатива для Android и Flutter. На Android использует NNAPI (Neural Networks API) для хардварного ускорения — с Android 10 NNAPI стабильнее, до этого лучше явно использовать GPU delegate через GpuDelegate. Типичная ошибка: модель обучена на нормализованных данных в диапазоне [0,1], а в приложении на вход подаётся [0,255] — инференс работает, но с бессмысленными результатами без ошибки. Мы включаем модуль автоматической валидации входных данных в SDK.

Для задач классификации изображений, детекции объектов и сегментации доступны готовые оптимизированные модели. YOLOv8 в CoreML формате запускает детекцию кадра 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite с GPU delegate — около 8 мс на Pixel 7 при классификации.

Параметр	CoreML	TFLite
Платформы	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Хардварное ускорение	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Поддержка квантизации	FP16, INT8 (с coremltools)	FP16, INT8, dynamic range
Кастомные операции	Через MLCustomLayer (Swift)	Через делегаты (Java/Kotlin)
Размер бандла модели	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Что делать, если нужна генерация текста на устройстве?

Запуск небольших языковых моделей на устройстве стал реальностью в последние несколько лет. Apple Intelligence использует собственные модели через Private Cloud Compute, но для сторонних разработчиков доступны другие пути.

llama.cpp с Metal backend на iOS — работающий подход для phi-3-mini (3.8B параметров, 4-bit квантизация, ~2.3 ГБ). Инференс: 15–25 токенов/секунду на iPhone 15 Pro. Для интеграции в Swift используем Swift Package llama.swift или обёртку через C-интерфейс llama.h. Бинарник к приложению не прикладываем — модель скачивается при первом запуске и хранится в Application Support. Наши сертифицированные разработчики настраивают инкрементальную загрузку, чтобы не блокировать первый запуск.

На Android аналог — Google AI Edge (бывший MediaPipe LLM Inference API) с поддержкой Gemma-2B. Работает через GPU delegate, на Tensor G3 чипе Pixel 8 Pro — около 20 токенов/секунду.

Ограничения реальны: модели больше 4B параметров на мобильных устройствах по-прежнему медленны. Для сложных задач рассуждения on-device LLM уступает GPT-4o в качестве. Гибридный подход — on-device для коротких задач и приватных данных, облако для сложных запросов — часто оптимален. Оценим ваш кейс и предложим баланс производительности и приватности — пишите.

Интеграция OpenAI API и других облачных моделей

Для сценариев, где cloud inference допустим, интеграция OpenAI, Anthropic или Google Gemini — это HTTP клиент + streaming SSE. В Swift удобно через AsyncThrowingStream для стриминговых ответов. В Kotlin — через Flow.

Критически важно: API-ключи никогда не хранятся в бандле приложения. Даже обфусцированный ключ извлекается из IPA за 10 минут через strings или frida. Правильная архитектура: мобильное приложение → собственный backend → OpenAI API. Backend контролирует rate limiting, логирует запросы, защищает ключ.

Что входит в работу (deliverables)

Обученная и квантизированная модель под целевое устройство (документация по метрикам)
SDK для интеграции (Swift/Kotlin/Flutter) с примерами вызова
Тесты производительности на 3–5 реальных устройствах
Инструкция по обновлению модели OTA
Поддержка при прохождении модерации App Store / Google Play (проверка соответствия Guidelines 4.2, 5.1)
2 недели технической поддержки после релиза

Типичный пайплайн проекта

Анализ задачи — замеряем latency, privacy, size, поддерживаемые устройства.
Прототипирование модели — в Python, оценка accuracy на целевых данных.
Конвертация и квантизация — под CoreML/TFLite с валидацией.
Интеграция в приложение — модель оборачивается в сервисный слой (легко подменять CoreML → TFLite → облако).
Тестирование — на реальных девайсах, замер FPS, RAM, батареи.
Деплой — через TestFlight / Firebase App Distribution, мониторинг метрик.

Сроки: интеграция готовой CoreML/TFLite модели — 1–2 недели, разработка кастомной модели с мобильной оптимизацией — от 6 недель, on-device LLM чат с персонализацией — 4–8 недель.

Почему мы беремся за сложные кейсы?

10+ лет опыта в мобильной разработке, 50+ внедрённых AI/ML решений, гарантия совместимости с актуальными версиями iOS и Android. Все проекты проходят code review и нагрузочное тестирование. В стоимость уже входит подготовка документации для модерации и обучение вашей команды.

Свяжитесь с нами — мы поможем выбрать архитектуру и внедрить ML в ваше приложение под ключ. Закажите аудит существующего решения — бесплатно оценим потенциал экономии серверных затрат (в некоторых проектах экономия достигает $10k в месяц).