Реализация распознавания изображений в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения
Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы
Мобильные приложения электронной коммерции
Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы
Мобильные приложения для управления бизнес-процессами
CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных
Мобильные приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем
Показано 1 из 1Все 1735 услуг
Реализация распознавания изображений в мобильном приложении
Средний
~1-2 недели
Часто задаваемые вопросы

Наши компетенции:

Этапы разработки

Последние работы

  • image_mobile-applications_feedme_467_0.webp
    Разработка мобильного приложения для компании FEEDME
    792
  • image_mobile-applications_xoomer_471_0.webp
    Разработка мобильного приложения для компании XOOMER
    671
  • image_mobile-applications_rhl_428_0.webp
    Разработка мобильного приложения для компании RHL
    1097
  • image_mobile-applications_zippy_411_0.webp
    Разработка мобильного приложения для компании ZIPPY
    969
  • image_mobile-applications_affhome_429_0.webp
    Разработка мобильного приложения для компании Affhome
    914
  • image_mobile-applications_flavors_409_0.webp
    Разработка мобильного приложения для компании FLAVORS
    495

Реализация распознавания изображений в мобильном приложении

Распознавание изображений в мобильном приложении — это не просто подключить готовый API. Реальная задача состоит из трёх частей: захват изображения из правильного источника, корректная предобработка и передача в модель, обработка результата с учётом UX. Каждая часть имеет свои грабли.

Источники изображений и их особенности

Камера через AVCaptureSession (iOS) или CameraX (Android) — самый сложный случай. Данные приходят как CMSampleBuffer / ImageProxy в формате YUV_420_888 или BGRA. Модели ожидают RGB float32 или uint8. Конвертация YUV → RGB без нативного кода — источник задержки. На Android используем ImageAnalysis.Builder().setOutputImageFormat(ImageAnalysis.OUTPUT_IMAGE_FORMAT_RGBA_8888) — это сразу даёт нужный формат без ручной конвертации.

Галерея — проще, но есть ловушка с EXIF-ориентацией. UIImage на iOS корректно учитывает ориентацию при отображении, но CGImage под капотом может быть повёрнут. Если передать CGImage напрямую в модель — распознавание упадёт по точности для вертикально снятых фото. Правильный путь: CIImage(image: uiImage)CIContext.createCGImage с применённой трансформацией ориентации.

На Android BitmapFactory.decodeFile не учитывает EXIF. Нужен ExifInterface с последующим Matrix.postRotate. Иначе модель получает повёрнутое изображение.

Предобработка: что важно для точности

Большинство классификаторов обучены на ImageNet с нормализацией mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225] — это нужно повторять при инференсе. Если нормализация не совпадает с обучением, точность падает на 15–30% без каких-либо ошибок в коде.

Ресайз с сохранением пропорций или crop-to-fit — принципиальный выбор. Если модель обучена на квадратных изображениях с center_crop, а вы делаете fit с паддингом — модель видит паддинг как часть изображения и путается. Смотрим, как обучена модель, и точно воспроизводим preprocessing.

Как мы строим пайплайн

Для iOS: VNImageRequestHandler + VNCoreMLRequest — самый чистый путь. Vision сам обрабатывает ориентацию и ресайз. Для тяжёлых моделей — отдельный MLModelConfiguration с computeUnits = .cpuAndNeuralEngine.

Для Android с ML Kit: ImageLabeler через InputImage.fromMediaImage(mediaImage, rotationDegrees). Rotation degrees берём из ImageProxy.imageInfo.rotationDegrees — не вычисляем вручную.

Для кастомных TFLite-моделей на Android — ImageClassifier из Task Library. Он берёт на себя нормализацию (если она прописана в model metadata), ресайз и конвертацию формата.

Результаты инференса асинхронно прилетают в callback — обновление UI только на main thread. Используем LiveData (Android) или @MainActor (iOS Swift Concurrency).

Кейс: приложение для идентификации грибов по фото. Модель — EfficientNetV2-S, конвертированная в Core ML. Исходная точность на тестовом сете 91%, на реальных пользовательских фото — 73%. Проблема: пользователи снимают грибы снизу под углом, а обучающий датасет — вид сверху. Добавили VNClassifyImageRequest с confidence threshold 0.6, при низкой уверенности предлагаем переснять с инструкцией по кадрированию. Пользовательская точность выросла до 84%.

Процесс работы

Аудит требований (источник изображений, платформа, точность, латентность) → выбор модели и фреймворка → реализация preprocessing pipeline → интеграция инференса → тестирование на реальных данных → настройка порогов → передача в CI.

Сроки: 1–2 недели в зависимости от сложности модели и наличия готового preprocessing. Стоимость рассчитывается индивидуально.