Реалізація розпізнавання тексту (OCR) у мобільному застосунку

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми
Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори
Мобільні програми електронної комерції
Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи
Мобільні програми для управління бізнес-процесами
CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних
Мобільні програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо
Показано 1 з 1Усі 1735 послуг
Реалізація розпізнавання тексту (OCR) у мобільному застосунку
Середній
~3-5 днів
Часті запитання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_mobile-applications_feedme_467_0.webp
    Розробка мобільного додатка для компанії FEEDME
    792
  • image_mobile-applications_xoomer_471_0.webp
    Розробка мобільного додатку для компанії XOOMER
    671
  • image_mobile-applications_rhl_428_0.webp
    Розробка мобільного додатку для компанії RHL
    1097
  • image_mobile-applications_zippy_411_0.webp
    Розробка мобільного додатку для компанії ZIPPY
    969
  • image_mobile-applications_affhome_429_0.webp
    Розробка мобільного додатку для компанії Affhome
    914
  • image_mobile-applications_flavors_409_0.webp
    Розробка мобільного додатку для компанії FLAVORS
    495

Реалізація OCR та розпізнавання тексту у мобільних додатках

OCR на мобілі — одна з найбільш зрілих завдань з гарним набором готових інструментів. Нативні рішення (Vision на iOS, ML Kit на Android) охоплюють більшість випадків. Складність починається, де текст нестандартний: рукопис, виціченні чеки, відображення, спотворена перспектива.

Вибір інструменту

iOS Vision FrameworkVNRecognizeTextRequest. Повністю on-device, підтримує 18+ мов включаючи кирилицю. recognitionLevel = .accurate найкращої якості, recognitionLevel = .fast в 2–3 рази швидше. iPhone 12 при .accurate: 180–350 ms на A4 фото.

ML Kit Text Recognition v2 — cross-platform (iOS + Android), on-device. Підтримує латиницю, кирилицю, деванагари, CJK символи. Android через TextRecognition.getClient(TextRecognizerOptions.DEFAULT_OPTIONS).

Tesseract через SwiftyTesseract (iOS) або tess-two (Android)—коли потрібна кастомна тренування для конкретного шрифту або мови. В 3–5 разів повільніше нативних API, але гнучкіший.

Для стандартних завдань (документи, візитки, цінники)—Vision / ML Kit достатньо. Для спеціалізованих завдань (медичні форми з нестандартними шрифтами)—Tesseract з fine-tune моделлю.

Preprocessing: критичний для 40% точності

VNRecognizeTextRequest та ML Kit приймають CGImage / InputImage—але якість вхідного зображення критична.

Типовий pipeline preprocessing:

  1. Конвертація в grayscale—знижує шум JPEG артефактів кольору
  2. Коригування яскравості/контрасту через CIColorControls (iOS) або ColorMatrix (Android)
  3. Binarization (Otsu threshold)—допомагає при нерівномірному освітленні
  4. Deskew—коригування перспективи та обертання

Коригування перспективи (документ знятий під кутом): iOS VNDetectRectanglesRequest знаходить контур документа, CIPerspectiveCorrection вирівнює. Android—аналогічно через Bitmap + Matrix.setPolyToPoly.

Кейс: програма сканування накладних. ML Kit v2 без preprocessing дав 78% точність в польових умовах (освітлення складу, м'яті листи). Після Otsu binarization + perspective correction—94%. Особливо допоміг при розпізнаванні номерів накладних з матричним шрифтом.

Real-time проти фото розпізнавання

Для real-time (навести камеру, текст розпізнається на лету—як Google Lens), адаптуйте конвеєр:

  • Знизьте розширення до 720p або менше
  • iOS: VNRecognizeTextRequest в VNSequenceRequestHandler кожні 3–5 кадрів, не кожен
  • Буферизуйте результати: показуйте попередній результат поки infer новий кадр
  • Стабілізуйте текст між кадрами: порівняйте IoU bounding box, якщо >0.7—той же текст

На Android, ML Kit в STREAM_MODE керує частотою—не перевантажує конвеєр.

Постобробка: текст ≠ дані

Розпізнавання тексту та видобування корисних даних — різні завдання.

Для номерів телефонів, email, дат—використовуйте NSDataDetector (iOS) або Patterns (Android) на розпізнаному тексті. Для структурованих документів (IDs, номери паспортів)—regex з перевіркою контрольних цифр.

Для таблиць та форм: ML Kit v2 повертає TextBlock → TextLine → TextElement з координатами кожного. Групуйте по Y-координаті рядка (±5px) для реконструкції структури таблиці.

Часові рамки

OCR для фото з preprocessing та постобробкою даних: 3–5 робочих днів. Повний documento-сканер з real-time режимом, коригуванням перспективи та експортом: 1–2 тижні. Вартість розраховується індивідуально.