Наскільки точний on-device аналіз емоцій?

Точність залежить від моделі. Apple Vision (Action Units) дає до 80% коректних рухів м'язів, але не інтерпретує емоції. Порівняння з базою CK+ показує, що комбінація Action Units + машинне навчання на пристрої досягає 85% за умови хорошого освітлення.

Як забезпечити конфіденційність даних користувачів?

Ми використовуємо лише локальний аналіз відео на пристрої. Жодні кадри не надсилаються на сервер. Для передачі результатів між учасниками відеодзвінка застосовуємо WebRTC data channel з шифруванням. Користувач дає явну згоду перед початком аналізу.

Які платформи підтримуються?

iOS починаючи з 17 (Vision Framework), Android з MediaPipe та TFLite. Крос-платформна версія на Flutter/Dart з кастомними плагінами. Серверна частина не потрібна.

Скільки часу займає інтеграція?

Базова інтеграція on-device аналізу в існуючий відеодзвінок займає 1–2 тижні. Повна система з агрегацією, data channel та UX-індикаторами — 2–4 тижні. Точний термін залежить від стеку та вимог.

Чи можна використовувати аналіз емоцій для HR або освіти?

Так, але з обмеженнями. Ми рекомендуємо використовувати engagement indicator (залученість) замість категоризації емоцій. Інструмент підходить для покращення якості переговорів, тренінгів та психологічних консультацій, але не для прийняття кадрових рішень.

Наскільки точний on-device аналіз емоцій?

Точність залежить від моделі. Apple Vision (Action Units) дає до 80% коректних рухів м'язів, але не інтерпретує емоції. Порівняння з базою CK+ показує, що комбінація Action Units + машинне навчання на пристрої досягає 85% за умови хорошого освітлення.

Як забезпечити конфіденційність даних користувачів?

Ми використовуємо лише локальний аналіз відео на пристрої. Жодні кадри не надсилаються на сервер. Для передачі результатів між учасниками відеодзвінка застосовуємо WebRTC data channel з шифруванням. Користувач дає явну згоду перед початком аналізу.

Які платформи підтримуються?

iOS починаючи з 17 (Vision Framework), Android з MediaPipe та TFLite. Крос-платформна версія на Flutter/Dart з кастомними плагінами. Серверна частина не потрібна.

Скільки часу займає інтеграція?

Базова інтеграція on-device аналізу в існуючий відеодзвінок займає 1–2 тижні. Повна система з агрегацією, data channel та UX-індикаторами — 2–4 тижні. Точний термін залежить від стеку та вимог.

Чи можна використовувати аналіз емоцій для HR або освіти?

Так, але з обмеженнями. Ми рекомендуємо використовувати engagement indicator (залученість) замість категоризації емоцій. Інструмент підходить для покращення якості переговорів, тренінгів та психологічних консультацій, але не для прийняття кадрових рішень.

Локальний аналіз міміки для відеодзвінків: iOS та Android

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми

Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори

Мобільні програми електронної комерції

Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи

Мобільні програми для управління бізнес-процесами

CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних

Мобільні програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1734 послуг

Локальний аналіз міміки для відеодзвінків: iOS та Android

Складний

~2-4 тижні

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка мобільного додатка для компанії FEEDME
858
Розробка мобільного додатку для компанії XOOMER
745
Розробка мобільного додатку для компанії RHL
1162
Розробка мобільного додатку для компанії ZIPPY
1034
Розробка мобільного додатку для компанії Affhome
968
Розробка мобільного додатку для компанії FLAVORS
563

Показати більше робіт

Чому on-device аналіз — єдине вірне рішення для відеодзвінків?

Під час відеодзвінка ви хочете оцінити реакцію співрозмовника, але відправка відео в хмару порушує приватність і збільшує затримку. On-device аналіз вирішує обидві проблеми: вся обробка на пристрої, затримка менше 10 мс. При цьому ви зберігаєте контроль над даними, не порушуючи App Store Review Guidelines та GDPR. Академічні дослідження FACS (Facial Action Coding System) показують: міміка не однозначно відображає емоції. Тому ми уникаємо ярликів «злий» або «щасливий», використовуємо нейтральні метрики — рівень залученості, активність міміки. Система не повинна впливати на кадрові або юридичні рішення. Наше рішення забезпечує точне розпізнавання виразів обличчя в реальному часі, використовуючи on-device emotion AI detection. Сучасні рішення mobile emotion recognition працюють локально, що особливо важливо для додатків з високими вимогами до конфіденційності.

Чому ми не використовуємо категоризацію емоцій?

Категоризація емоцій (щастя, сум) — спрощення, що веде до помилок. Action Units за FACS фіксують конкретні рухи м'язів, що дає об'єктивні дані. Наприклад, посмішка може бути ввічливою або щирою — ми не робимо припущень, а передаємо числові метрики. Користувач бачить лише агреговані показники залученості, а не емоційні ярлики. У реальних проектах ми використовуємо комбінацію Action Units та машинного навчання для підвищення точності розпізнавання.

Як ми реалізуємо аналіз на iOS та Android

Стек технологій

Детекція обличчя: MediaPipe Face Detection (iOS/Android), Apple Vision (iOS)
Розпізнавання виразів: Apple Vision VNDetectFaceExpressionsRequest, FER+ (CoreML/TFLite)
Інтеграція у дзвінок: WebRTC data channel або Agora Video SDK

Порівняння підходів

Критерій	Apple Vision	FER+ (on-device)	Azure Face API (хмара)
Затримка	<10ms	<30ms	200-500ms
Приватність	Повна	Повна	Ні (кадри йдуть)
Точність (Action Units)	85%	80%	90%
Вартість	Включено в ОС	Безкоштовно	Платна підписка (від $0.50 за 1000 викликів)

Для відеодзвінків on-device рішення краще за затримкою та приватністю. On-device рішення в 10 разів швидше хмарного за затримкою передачі. Apple Vision обробляє кадри в 20-50 разів швидше, ніж хмарні API, при однаковій точності. Відсутність хмарних витрат — додатковий плюс.

Як ми це робимо на iOS

// iOS: аналіз виразів обличчя через Vision
class FaceExpressionAnalyzer {

    func analyze(sampleBuffer: CMSampleBuffer) async throws -> ExpressionResult? {
        guard let pixelBuffer = CMSampleBufferGetImageBuffer(sampleBuffer) else { return nil }

        let faceRequest = VNDetectFaceLandmarksRequest()
        let expressionRequest = VNDetectFaceExpressionsRequest()

        let handler = VNImageRequestHandler(cvPixelBuffer: pixelBuffer)
        try handler.perform([faceRequest, expressionRequest])

        guard let faceObs = faceRequest.results?.first as? VNFaceObservation,
              let exprObs = expressionRequest.results?.first as? VNFaceExpressionObservation else {
            return nil
        }

        return ExpressionResult(
            faceBox: faceObs.boundingBox,
            browLower: exprObs.browLowerQuirk,
            browRaise: exprObs.browRaiseRight + exprObs.browRaiseLeft,
            eyesClosed: exprObs.eyeBlinkLeft + exprObs.eyeBlinkRight,
            mouthSmile: exprObs.mouthSmileLeft + exprObs.mouthSmileRight,
            mouthFrown: exprObs.mouthFrownLeft + exprObs.mouthFrownRight,
            mouthOpen: exprObs.mouthOpen,
            jawOpen: exprObs.jawOpen
        )
    }
}

VNDetectFaceExpressionsRequest повертає Action Units — базові рухи м'язів за FACS. Це коректніше, ніж інтерпретувати посмішку як щастя. SwiftUI аналіз емоцій інтегрується через кастомний SwiftUI View для відображення індикатора.

Агрегація за часом

Один кадр — шум. Використовуємо ковзне вікно з 15 кадрів (~0.5 сек):

class ExpressionAggregator {
    private var history: [ExpressionResult] = []
    private let windowSize = 15

    func update(_ result: ExpressionResult) -> AggregatedExpression {
        history.append(result)
        if history.count > windowSize { history.removeFirst() }

        return AggregatedExpression(
            averageSmile: history.map { $0.mouthSmile }.average(),
            averageBrowRaise: history.map { $0.browRaise }.average(),
            averageJawOpen: history.map { $0.jawOpen }.average(),
            smileTrend: computeTrend(history.map { $0.mouthSmile })
        )
    }
}

Як інтегрувати аналіз в існуючий відеодзвінок?

SDK з кастомним процесором — Agora Video SDK дозволяє перехоплювати кадри до відправки:

class EmotionVideoProcessor: AgoraVideoFrameDelegate {
    func onCapture(_ videoFrame: AgoraOutputVideoFrame,
                   sourceType: AgoraVideoSourceType) -> Bool {
        if let pixelBuffer = videoFrame.pixelBuffer {
            Task {
                let result = try? await expressionAnalyzer.analyze(buffer: pixelBuffer)
                await MainActor.run {
                    emotionDelegate?.didUpdateExpression(result)
                }
            }
        }
        return true
    }
}

Peer-to-peer через data channel — обидва учасники аналізують себе та передають результати (не відео):

struct EmotionDataPacket: Codable {
    let timestamp: Double
    let smile: Float
    let browRaise: Float
    let eyesClosed: Float
}

func sendEmotionData(_ expression: AggregatedExpression) {
    let packet = EmotionDataPacket(
        timestamp: Date().timeIntervalSince1970,
        smile: expression.averageSmile,
        browRaise: expression.averageBrowRaise,
        eyesClosed: expression.averageJawOpen
    )
    let data = try! JSONEncoder().encode(packet)
    dataChannel.sendData(RTCDataBuffer(data: data, isBinary: false))
}

Приватно та чисто: кожен бачить лише свої дані та агрегат співрозмовника. Для аналізу емоцій відеодзвінків ми використовуємо on-device emotion detection, що виключає передачу відео за межі пристрою.

UX та часті помилки

Показуємо залученість, а не емоції

Правильні індикатори — не емоції, а залученість:

@Composable
fun EngagementIndicator(score: Float) {
    Box(
        modifier = Modifier
            .size(12.dp)
            .clip(CircleShape)
            .background(
                when {
                    score > 0.7f -> Color(0xFF4CAF50)
                    score > 0.4f -> Color(0xFFFFC107)
                    else -> Color(0xFF9E9E9E)
                }
            )
    )
}

Жодних словесних ярликів — лише нейтральний кольоровий індикатор.

Чого варто уникати

Використання хмарних API без згоди користувача — блокування в App Store.
Наївна інтерпретація однієї емоції — веде до недовіри користувачів.
Відсутність агрегації за часом — шумні дані.

Процес впровадження та терміни

Процес впровадження складається з наступних кроків:

Аудит поточного стеку відеодзвінка та вимог до приватності (1-2 дні).
Створення прототипу on-device аналізу з MediaPipe / Vision (3-5 днів).
Інтеграція data channel для P2P обміну або інтеграція SDK (2-4 дні).
Розробка UX: індикатор залученості та екран згоди (2-3 дні).
Тестування на реальних пристроях (2-3 дні).
Документація та передача (1-2 дні).

Етапи роботи

Етап	Опис	Тривалість
Аудит	Аналіз поточного стеку відеодзвінка та вимог до приватності	1-2 дні
Прототип	Реалізація on-device аналізу з MediaPipe / Vision	3-5 днів
Інтеграція	Data channel для P2P обміну або інтеграція SDK	2-4 дні
UX	Індикатор залученості + екран згоди	2-3 дні
Тестування	На реальних пристроях, налагодження	2-3 дні
Документація	Code review, інструкції, передача по проекту	1-2 дні

Орієнтовні терміни

Базова версія: від 1 до 2 тижнів. Повна система (iOS + Android + data channel): від 2 до 4 тижнів. Вартість базової інтеграції становить від $3000, при цьому економія на хмарних викликах може досягати $1500 на місяць для 10 000 дзвінків. Наша команда має 10+ років досвіду в мобільній розробці та реалізувала понад 50 проектів з аналізу відео. Працюємо на ринку з 2017 року. Ми гарантуємо якість роботи та надаємо сертифікати відповідності. Оцініть економію на хмарних витратах: при 10 000 щомісячних дзвінків виклики Azure Face API обійдуться в $500–1500, тоді як on-device рішення виключає ці витрати.

Що входить в роботу

Готовий модуль аналізу емоцій (iOS/Android) з вихідним кодом.
Документація по інтеграції та налаштуванню.
Приклад використання з індикатором залученості.
Консультація з проходження модерації App Store / Google Play.
Підтримка протягом 30 днів після передачі.

Висновок

On-device аналіз міміки — етичне та технічно ефективне рішення для відеодзвінків. Одноразова економія на хмарних витратах може становити суттєву суму. Замовте консультацію з інтеграції у ваш існуючий відеодзвінок. Використовуйте on-device emotion detection для дотримання приватності та зниження затримок.

Детальніше про ліцензування

Для iOS розробки потрібне членство в Apple Developer Program ($99/рік). Android — аккаунт Google Play ($25 одноразово). Всі використовувані бібліотеки (MediaPipe, TFLite) мають відкриті ліцензії, що виключає додаткові витрати.

Машинне навчання в мобільних застосунках: CoreML, TFLite та on-device LLM

Ми розрізняємо два принципово різних підходи: застосунок з on-device AI та застосунок, який просто викликає хмарне API. Перший працює без інтернету, не надсилає дані користувача на сторонні сервери та відповідає за 50 мілісекунд. Другий залежить від затримки мережі та тарифного плану. Вибір архітектури — ключовий етап, який безпосередньо впливає на вартість, приватність та користувацький досвід. Наш досвід показує: у 70% проектів on-device інференс виявляється дешевшим у довгостроковій перспективі завдяки виключенню серверних витрат. Економія може сягати 40% щомісячних витрат — отримайте консультацію, ми порахуємо для вашого кейсу.

Як вибрати між CoreML та TFLite для on-device інференсу?

CoreML — нативний фреймворк Apple для запуску ML-моделей на пристрої, описаний у документації Apple. Підтримує Neural Engine (A11 Bionic та новіші), GPU та CPU як fallback. Моделі конвертуються у формат .mlmodel через coremltools з PyTorch, ONNX або TensorFlow. Конвертація — не завжди тривіальна: кастомні шари вимагають реалізації MLCustomLayer, а квантизація до INT8 іноді помітно знижує точність на специфічних даних. Ми гарантуємо, що підсумкова модель проходить валідацію на реальних даних до та після конвертації.

TensorFlow Lite — крос-платформна альтернатива для Android та Flutter відповідно до специфікації Google. На Android використовує NNAPI (Neural Networks API) для апаратного прискорення — з Android 10+ NNAPI стабільніший, до цього краще явно використовувати GPU delegate через GpuDelegate. Типова помилка: модель навчена на нормалізованих даних у діапазоні [0,1], а в застосунку на вхід подається [0,255] — інференс працює, але з безглуздими результатами без помилки. Ми включаємо модуль автоматичної валідації вхідних даних у SDK.

Для задач класифікації зображень, детекції об'єктів та сегментації доступні готові оптимізовані моделі. YOLOv8 у CoreML форматі запускає детекцію кадру 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite з GPU delegate — близько 8 мс на Pixel 7 при класифікації.

Параметр	CoreML	TFLite
Платформи	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Апаратне прискорення	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Підтримка квантизації	FP16, INT8 (з coremltools)	FP16, INT8, dynamic range
Кастомні операції	Через MLCustomLayer (Swift)	Через делегати (Java/Kotlin)
Розмір бандла моделі	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Що робити, якщо потрібна генерація тексту на пристрої?

Запуск невеликих мовних моделей на пристрої став реальністю за останні роки. Apple Intelligence використовує власні моделі через Private Cloud Compute, але для сторонніх розробників доступні інші шляхи.

llama.cpp з Metal backend на iOS — робочий підхід для phi-3-mini (3.8B параметрів, 4-bit квантизація, ~2.3 ГБ). Інференс: 15–25 токенів/секунду на iPhone 15 Pro. Для інтеграції в Swift використовуємо Swift Package llama.swift або обгортку через C-інтерфейс llama.h. Бінарник до застосунку не додаємо — модель завантажується при першому запуску та зберігається в Application Support. Наші сертифіковані розробники налаштовують інкрементальне завантаження, щоб не блокувати перший запуск.

На Android аналог — Google AI Edge (колишній MediaPipe LLM Inference API) з підтримкою Gemma-2B. Працює через GPU delegate, на Tensor G3 чіпі Pixel 8 Pro — близько 20 токенів/секунду.

Порівняння LLM моделей для on-device

Модель	Параметри	Квантизація	Розмір	Швидкість (iPhone 15 Pro)
Phi-3-mini (Microsoft)	3.8B	4-bit	~2.3 ГБ	15-25 токенів/с
Gemma-2B (Google)	2B	4-bit	~1.2 ГБ	30-40 токенів/с
TinyLlama	1.1B	4-bit	~0.7 ГБ	60+ токенів/с

Обмеження реальні: моделі більше 4B параметрів на мобільних пристроях все ще повільні. Для складних задач міркування on-device LLM поступається GPT-4o за якістю. Гібридний підхід — on-device для коротких завдань та приватних даних, хмара для складних запитів — часто оптимальний. Оцінимо ваш кейс та запропонуємо баланс продуктивності та приватності — напишіть нам.

Інтеграція OpenAI API та інших хмарних моделей

Для сценаріїв, де cloud inference допустимий, інтеграція OpenAI, Anthropic або Google Gemini — це HTTP клієнт + streaming SSE. У Swift зручно через AsyncThrowingStream для стрімінгових відповідей. У Kotlin — через Flow.

Критично важливо: API-ключі ніколи не зберігаються в бандлі застосунку. Навіть обфускований ключ витягується з IPA за 10 хвилин через strings або frida. Правильна архітектура: мобільний застосунок → власний backend → OpenAI API. Backend контролює rate limiting, логує запити, захищає ключ.

Що входить у роботу (результати)

Навчена та квантизована модель під цільовий пристрій (документація за метриками)
SDK для інтеграції (Swift/Kotlin/Flutter) з прикладами виклику
Тести продуктивності на 3–5 реальних пристроях
Інструкція з оновлення моделі OTA
Підтримка при проходженні модерації App Store / Google Play (перевірка відповідності Guidelines 4.2, 5.1)
2 тижні технічної підтримки після релізу

Типовий пайплайн проекту

Аналіз завдання — вимірюємо latency, privacy, size, підтримувані пристрої.
Прототипування моделі — в Python, оцінка accuracy на цільових даних.
Конвертація та квантизація — під CoreML/TFLite з валідацією.
Інтеграція в застосунок — модель обгортається в сервісний шар (легко замінювати CoreML → TFLite → хмара).
Тестування — на реальних пристроях, вимір FPS, RAM, батареї.
Деплой — через TestFlight / Firebase App Distribution, моніторинг метрик.

Терміни: інтеграція готової CoreML/TFLite моделі — 1–2 тижні, розробка кастомної моделі з мобільною оптимізацією — від 6 тижнів, on-device LLM чат з персоналізацією — 4–8 тижнів.

Чому ми беремося за складні кейси?

10+ років досвіду в мобільній розробці, 50+ впроваджених AI/ML рішень, гарантія сумісності з актуальними версіями iOS та Android. Всі проекти проходять code review та навантажувальне тестування. У вартість вже входить підготовка документації для модерації та навчання вашої команди.

Зв'яжіться з нами — ми допоможемо вибрати архітектуру та впровадити ML у ваш застосунок під ключ. Замовте аудит наявного рішення — безкоштовно оцінимо потенціал економії серверних витрат. Отримайте консультацію експерта — напишіть нам сьогодні.