Реалізація розпізнавання зображень у мобільних додатках
Розпізнавання зображень у мобільному додатку — це не просто підключення готового API. Реальне завдання складається з трьох частин: захоплення зображень з правильного джерела, застосування коректного preprocessing, передача до моделі та обробка результатів з врахуванням UX. Кожна частина має свої подвохи.
Джерела зображень та їх особливості
Камера через AVCaptureSession (iOS) або CameraX (Android) — найскладніший випадок. Дані приходять як CMSampleBuffer / ImageProxy у форматі YUV_420_888 або BGRA. Моделі очікують RGB float32 або uint8. Конвертація YUV → RGB без нативного коду — джерело latency. На Android використовуйте ImageAnalysis.Builder().setOutputImageFormat(ImageAnalysis.OUTPUT_IMAGE_FORMAT_RGBA_8888)—забезпечує потрібний формат без ручної конвертації.
Галерея простіша, але має пастку EXIF орієнтації. UIImage на iOS правильно враховує орієнтацію при відображенні, але нижче лежачий CGImage може бути повернутий. Передавайте CGImage напрямку моделі й точність розпізнавання падає для вертикально знятих фото. Правильний підхід: CIImage(image: uiImage) → CIContext.createCGImage з застосованою трансформацією орієнтації.
На Android BitmapFactory.decodeFile ігнорує EXIF. Використовуйте ExifInterface з Matrix.postRotate. Інакше модель отримує повернуте зображення.
Preprocessing: критичне для точності
Більшість класифікаторів навчаються на ImageNet з нормалізацією mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]. Точно відтворюйте при infer. Невідповідна нормалізація знижує точність на 15–30% без помилок коду.
Ресайз зі збереженням пропорцій або crop-to-fit — принципова різниця. Якщо модель навчена на квадратних зображеннях з center_crop, але ви робите fit з padding, модель бачить padding як частину зображення й плутається. Точно відповідайте preprocessing моделі під час навчання.
Наш підхід до конвеєра
Для iOS: VNImageRequestHandler + VNCoreMLRequest — найчистіший шлях. Vision автоматично обробляє орієнтацію та ресайз. Для важких моделей використовуйте окремий MLModelConfiguration з computeUnits = .cpuAndNeuralEngine.
Для Android з ML Kit: ImageLabeler через InputImage.fromMediaImage(mediaImage, rotationDegrees). Отримайте degrees обертання з ImageProxy.imageInfo.rotationDegrees—не обраховуйте вручну.
Для кастомних TFLite-моделей на Android використовуйте ImageClassifier із Task Library. Він обробляє нормалізацію (якщо в метаданих моделі), ресайз та конвертацію формату.
Результати infer приходять асинхронно в callbacks—оновлюйте UI тільки на main thread. Використовуйте LiveData (Android) або @MainActor (iOS Swift Concurrency).
Кейс: програма для ідентифікації грибів за фото. Модель: EfficientNetV2-S конвертована в Core ML. Точність на тестовому наборі 91%, реальні фото користувачів 73%. Проблема: користувачі знімають гриби знизу під кутом; дані тренування — вид зверху. Додали VNClassifyImageRequest з threshold впевненості 0.6. При низькій впевненості пропонуємо переснять з інструкціями. Точність користувачів стрибнула до 84%.
Огляд процесу
Аудит вимог (джерело зображення, платформа, точність, latency) → вибір моделі та фреймворка → реалізація конвеєра preprocessing → інтеграція infer → тестування на реальних даних → налаштування порогів → передача в CI.
Часові рамки: 1–2 тижні залежно від складності моделі та доступності preprocessing. Вартість розраховується індивідуально.







