Реализация распознавания изображений в мобильном приложении
Распознавание изображений в мобильном приложении — это не просто подключить готовый API. Реальная задача состоит из трёх частей: захват изображения из правильного источника, корректная предобработка и передача в модель, обработка результата с учётом UX. Каждая часть имеет свои грабли.
Источники изображений и их особенности
Камера через AVCaptureSession (iOS) или CameraX (Android) — самый сложный случай. Данные приходят как CMSampleBuffer / ImageProxy в формате YUV_420_888 или BGRA. Модели ожидают RGB float32 или uint8. Конвертация YUV → RGB без нативного кода — источник задержки. На Android используем ImageAnalysis.Builder().setOutputImageFormat(ImageAnalysis.OUTPUT_IMAGE_FORMAT_RGBA_8888) — это сразу даёт нужный формат без ручной конвертации.
Галерея — проще, но есть ловушка с EXIF-ориентацией. UIImage на iOS корректно учитывает ориентацию при отображении, но CGImage под капотом может быть повёрнут. Если передать CGImage напрямую в модель — распознавание упадёт по точности для вертикально снятых фото. Правильный путь: CIImage(image: uiImage) → CIContext.createCGImage с применённой трансформацией ориентации.
На Android BitmapFactory.decodeFile не учитывает EXIF. Нужен ExifInterface с последующим Matrix.postRotate. Иначе модель получает повёрнутое изображение.
Предобработка: что важно для точности
Большинство классификаторов обучены на ImageNet с нормализацией mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225] — это нужно повторять при инференсе. Если нормализация не совпадает с обучением, точность падает на 15–30% без каких-либо ошибок в коде.
Ресайз с сохранением пропорций или crop-to-fit — принципиальный выбор. Если модель обучена на квадратных изображениях с center_crop, а вы делаете fit с паддингом — модель видит паддинг как часть изображения и путается. Смотрим, как обучена модель, и точно воспроизводим preprocessing.
Как мы строим пайплайн
Для iOS: VNImageRequestHandler + VNCoreMLRequest — самый чистый путь. Vision сам обрабатывает ориентацию и ресайз. Для тяжёлых моделей — отдельный MLModelConfiguration с computeUnits = .cpuAndNeuralEngine.
Для Android с ML Kit: ImageLabeler через InputImage.fromMediaImage(mediaImage, rotationDegrees). Rotation degrees берём из ImageProxy.imageInfo.rotationDegrees — не вычисляем вручную.
Для кастомных TFLite-моделей на Android — ImageClassifier из Task Library. Он берёт на себя нормализацию (если она прописана в model metadata), ресайз и конвертацию формата.
Результаты инференса асинхронно прилетают в callback — обновление UI только на main thread. Используем LiveData (Android) или @MainActor (iOS Swift Concurrency).
Кейс: приложение для идентификации грибов по фото. Модель — EfficientNetV2-S, конвертированная в Core ML. Исходная точность на тестовом сете 91%, на реальных пользовательских фото — 73%. Проблема: пользователи снимают грибы снизу под углом, а обучающий датасет — вид сверху. Добавили VNClassifyImageRequest с confidence threshold 0.6, при низкой уверенности предлагаем переснять с инструкцией по кадрированию. Пользовательская точность выросла до 84%.
Процесс работы
Аудит требований (источник изображений, платформа, точность, латентность) → выбор модели и фреймворка → реализация preprocessing pipeline → интеграция инференса → тестирование на реальных данных → настройка порогов → передача в CI.
Сроки: 1–2 недели в зависимости от сложности модели и наличия готового preprocessing. Стоимость рассчитывается индивидуально.







