Какая библиотека лучше всего подходит для iOS сканера документов?

Для iOS оптимальный выбор — VNDocumentCameraViewController начиная с iOS 13. Он предоставляет готовый интерфейс с автоматическим захватом, перспективной коррекцией и мультистраничным режимом. Если нужна кастомная обработка, используем VisionKit и Core Image.

Как улучшить качество скана при плохом освещении?

Применяем комплект фильтров: grayscale с усилением контраста, adaptive thresholding для бинаризации, и highlight recovery для теней. Для последних версий iOS используем VNGeneratePersonInstanceMaskRequest для удаления теней от рук.

Сколько времени занимает разработка сканера документов?

Базовая реализация с VNDocumentCameraViewController занимает 1–3 дня для iOS. Кастомное решение с ручной детекцией границ, перспективной коррекцией и мультистраничным PDF — 3–5 дней для одной платформы. Полноценный сканер под iOS и Android — от 2 недель.

Можно ли интегрировать OCR в сканер документов?

Да, после постобработки изображения можно добавить распознавание текста. На iOS используем VNRecognizeTextRequest из Vision, на Android — ML Kit Text Recognition. Мы подключаем OCR как опциональный модуль.

Какая библиотека лучше всего подходит для iOS сканера документов?

Для iOS оптимальный выбор — VNDocumentCameraViewController начиная с iOS 13. Он предоставляет готовый интерфейс с автоматическим захватом, перспективной коррекцией и мультистраничным режимом. Если нужна кастомная обработка, используем VisionKit и Core Image.

Как улучшить качество скана при плохом освещении?

Применяем комплект фильтров: grayscale с усилением контраста, adaptive thresholding для бинаризации, и highlight recovery для теней. Для последних версий iOS используем VNGeneratePersonInstanceMaskRequest для удаления теней от рук.

Сколько времени занимает разработка сканера документов?

Базовая реализация с VNDocumentCameraViewController занимает 1–3 дня для iOS. Кастомное решение с ручной детекцией границ, перспективной коррекцией и мультистраничным PDF — 3–5 дней для одной платформы. Полноценный сканер под iOS и Android — от 2 недель.

Можно ли интегрировать OCR в сканер документов?

Да, после постобработки изображения можно добавить распознавание текста. На iOS используем VNRecognizeTextRequest из Vision, на Android — ML Kit Text Recognition. Мы подключаем OCR как опциональный модуль.

Распознавание документов через камеру в мобильном приложении

Q: Поддерживается ли Android сканер документов?

Да, на Android используем ML Kit Document Scanner API (доступен через Google Play Services) или OpenCV через NDK для кастомных решений. ML Kit предоставляет готовое обнаружение границ и перспективную коррекцию.

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1734 услуг

Распознавание документов через камеру в мобильном приложении

Средний

~3-5 дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
858
Разработка мобильного приложения для компании XOOMER
743
Разработка мобильного приложения для компании RHL
1160
Разработка мобильного приложения для компании ZIPPY
1034
Разработка мобильного приложения для компании Affhome
968
Разработка мобильного приложения для компании FLAVORS
562

Показать больше работ

Пользователь подносит телефон к документу. На экране появляется зелёная рамка, но скан выходит размытым. Причина — перспективные искажения и тени от пальцев. Чтобы получить читаемый PDF, нужно решить цепочку задач: детекция границ, перспективная коррекция, постобработка, многостраничное объединение. За 5+ лет мы реализовали сканеры в 50+ проектах для iOS и Android, сертифицированы App Store и Google Play. На практике всплывают десятки нюансов: бликующие поверхности, дрожание руки, разные типы бумаги. Свяжитесь с нами для бесплатной оценки вашего проекта — мы подберём оптимальное решение.

Почему автоматическое обнаружение границ — первый этап?

Первый шаг — найти четыре угла документа в кадре. На iOS с iOS 13+ это делает VisionKit через VNDetectRectanglesRequest:

let request = VNDetectRectanglesRequest { request, error in
    guard let results = request.results as? [VNRectangleObservation],
          let rect = results.first else { return }

    // rect.topLeft, topRight, bottomLeft, bottomRight в нормализованных координатах [0,1]
    DispatchQueue.main.async {
        self.overlayView.drawQuadrilateral(observation: rect,
                                           imageSize: self.previewLayer.frame.size)
    }
}
request.minimumConfidence = 0.8
request.minimumAspectRatio = 0.5 // отфильтровываем узкие прямоугольники
request.quadratureTolerance = 30  // допуск отклонения от прямоугольника в градусах

С iOS 16 появился VNDocumentCameraViewController — готовый интерфейс от Apple с автоматическим захватом, перспективной коррекцией и мультистраничным сканированием. Для большинства задач это оптимальный выбор. VNDocumentCameraViewController На Android — ML Kit Document Scanner API (beta, доступен через Google Play Services) или OpenCV через NDK для кастомных решений.

Как настроить перспективную коррекцию?

После обнаружения четырёх углов применяем гомографическую трансформацию — выравниваем наклонённый документ в прямоугольник «как будто снимали сверху». На iOS это CIPerspectiveCorrection из Core Image:

func correctPerspective(image: CIImage, observation: VNRectangleObservation) -> CIImage {
    let imageSize = image.extent.size

    // Конвертируем нормализованные координаты Vision в пиксельные CIImage
    func toPixel(_ point: CGPoint) -> CIVector {
        return CIVector(x: point.x * imageSize.width,
                        y: point.y * imageSize.height)
    }

    let filter = CIFilter.perspectiveCorrection()
    filter.inputImage = image
    filter.topLeft     = toPixel(observation.topLeft)
    filter.topRight    = toPixel(observation.topRight)
    filter.bottomLeft  = toPixel(observation.bottomLeft)
    filter.bottomRight = toPixel(observation.bottomRight)

    return filter.outputImage ?? image
}

Важно: система координат CIImage перевёрнута по Y относительно UIKit — topLeft в Vision это bottomLeft в CIImage. Эта ошибка встречается в 90% первых реализаций. Наш опыт гарантирует, что мы учтём такие нюансы.

Типичные ошибки при настройке перспективной коррекции:

Неправильный учёт системы координат CIImage (topLeft Vision == bottomLeft CIImage).
Слишком низкий minimumConfidence (меньше 0.8) приводит к ложным срабатываниям.
Игнорирование quadratureTolerance для нестандартных углов документа.

Что делает постобработка изображения?

Скан документа после геометрической коррекции обычно требует улучшения:

Grayscale + усиление контраста — для распознавания текста, документов для архива:

let grayscaleFilter = CIFilter.colorControls()
grayscaleFilter.saturation = 0
grayscaleFilter.contrast = 1.3

Adaptive thresholding — «чёрно-белый» эффект как в Adobe Scan. Core Image не имеет встроенного adaptive threshold, поэтому используем CIKernel или Metal Compute Shader для обработки по блокам 15×15 пикселей.

Document enhancement — на последних версиях iOS доступен VNGeneratePersonInstanceMaskRequest, который помогает убрать тень от руки. Для более ранних версий — GPUImage3 или собственный Metal-шейдер для highlight recovery.

Когда автоматический захват лучше ручного?

Автоматический триггер съёмки при обнаружении документа — хороший UX, но требует стабилизации: документ должен быть в кадре более 1.5 секунды с достаточным показателем уверенности перед автозахватом. Слишком агрессивный триггер раздражает — пользователь ещё выравнивает телефон, а приложение уже сфотографировало. В таблице ниже — сравнение подходов.

Критерий	Автоматический захват	Ручной захват
Удобство для пользователя	Высокое (не нужно нажимать кнопку)	Среднее (требует нажатия)
Стабильность результатов	Зависит от стабилизации времени	Высокая (пользователь выбирает момент)
Время на сканирование	Быстрее при хороших условиях	Медленнее на 1-2 секунды
Риск некачественного скана	Выше при плохом освещении	Минимальный (пользователь контролирует)

При сканировании часто возникают блики от поверхности — их можно компенсировать многоснимковой обработкой. Размытие из-за дрожания решается автоматическим захватом с задержкой 1.5 секунды. Тени от рук удаляются с помощью VNGeneratePersonInstanceMaskRequest. Эти и другие нюансы учитываются при настройке сканера.

Ниже — сравнение популярных библиотек для интеграции сканера:

Библиотека	Платформа	Готовый UI	Кастомная обработка	Сложность интеграции
VNDocumentCameraViewController	iOS	Да	Ограниченная	Низкая
ML Kit Document Scanner	Android	Да	Ограниченная	Средняя
OpenCV + NDK	iOS/Android	Нет	Полная	Высокая

Как объединить страницы в PDF?

Пользователь сканирует несколько страниц — они объединяются в один документ. На iOS — PDFDocument + PDFPage из PDFKit:

func createPDF(from images: [UIImage]) -> Data? {
    let pdfDocument = PDFDocument()
    for (index, image) in images.enumerated() {
        guard let page = PDFPage(image: image) else { continue }
        pdfDocument.insert(page, at: index)
    }
    return pdfDocument.dataRepresentation()
}

Размер PDF важен: A4 при 300 DPI = ~2500×3500 px. Для хранения и передачи сжимаем JPEG внутри PDF с quality 0.7–0.85. Для OCR-задач — сохраняем оригинальное разрешение. При необходимости мы добавляем распознавание текста (OCR) — на iOS через VNRecognizeTextRequest, на Android через ML Kit Text Recognition.

Что входит в нашу работу

Анализ сценариев использования: типы документов, нужен ли экспорт в PDF и интеграция с OCR.
Проектирование архитектуры: выбор библиотек (VisionKit, ML Kit, OpenCV) и фреймворков.
Реализация детектора границ и live-preview с подсветкой найденного документа.
Перспективная коррекция, постобработка изображения.
Мультистраничный режим, экспорт в PDF или JPEG.
Интеграция с камерой, обработка ошибок, тестирование в реальных условиях.
Документация по API и развёртывание.

Процесс работы

Определение сценария: тип документов (паспорт, чек, договор, многостраничные материалы), нужен ли экспорт в PDF, интеграция с OCR.
Реализация детектора границ и live-preview с подсветкой найденного документа.
Перспективная коррекция, постобработка изображения.
Мультистраничный режим, экспорт в PDF или JPEG.
Тестирование в реальных условиях: разное освещение, различные типы бумаги (глянцевая, матовая, старые документы).

Ориентиры по срокам

Базовый сканер с VNDocumentCameraViewController (iOS) — от 1 до 3 дней. Полная кастомная реализация с поддержкой двух платформ и мультистраничным PDF — от 2 недель. Стоимость базовой реализации зависит от сложности и рассчитывается индивидуально. Получите консультацию инженера по вашему сценарию использования — свяжитесь с нами для обсуждения деталей.

AI и ML в мобильных приложениях: CoreML, TFLite и on-device модели

Мы различаем два принципиально разных подхода: приложение с on-device AI и приложение, которое просто вызывает облачное API. Первое работает без интернета, не отправляет данные пользователя на сторонние серверы и отвечает за 50 миллисекунд. Второе зависит от задержки сети и тарифного плана. Выбор архитектуры — ключевой этап, который напрямую влияет на стоимость, приватность и пользовательский опыт. Наш опыт показывает: в 70% проектов on-device инференс оказывается дешевле в долгосрочной перспективе за счёт исключения серверных затрат.

Как выбрать между CoreML и TFLite для on-device инференса?

CoreML — нативный фреймворк Apple для запуска ML-моделей на устройстве. Поддерживает Neural Engine (начиная с A11 Bionic), GPU и CPU как fallback. Модели конвертируются в формат .mlmodel через coremltools из PyTorch, ONNX или TensorFlow. Конвертация — не всегда тривиальна: кастомные слои требуют реализации MLCustomLayer, а квантизация до INT8 иногда заметно роняет точность на специфических данных. Мы гарантируем, что итоговая модель проходит валидацию на реальных данных до и после конвертации.

TensorFlow Lite — кросс-платформенная альтернатива для Android и Flutter. На Android использует NNAPI (Neural Networks API) для хардварного ускорения — с Android 10 NNAPI стабильнее, до этого лучше явно использовать GPU delegate через GpuDelegate. Типичная ошибка: модель обучена на нормализованных данных в диапазоне [0,1], а в приложении на вход подаётся [0,255] — инференс работает, но с бессмысленными результатами без ошибки. Мы включаем модуль автоматической валидации входных данных в SDK.

Для задач классификации изображений, детекции объектов и сегментации доступны готовые оптимизированные модели. YOLOv8 в CoreML формате запускает детекцию кадра 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite с GPU delegate — около 8 мс на Pixel 7 при классификации.

Параметр	CoreML	TFLite
Платформы	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Хардварное ускорение	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Поддержка квантизации	FP16, INT8 (с coremltools)	FP16, INT8, dynamic range
Кастомные операции	Через MLCustomLayer (Swift)	Через делегаты (Java/Kotlin)
Размер бандла модели	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Что делать, если нужна генерация текста на устройстве?

Запуск небольших языковых моделей на устройстве стал реальностью в последние несколько лет. Apple Intelligence использует собственные модели через Private Cloud Compute, но для сторонних разработчиков доступны другие пути.

llama.cpp с Metal backend на iOS — работающий подход для phi-3-mini (3.8B параметров, 4-bit квантизация, ~2.3 ГБ). Инференс: 15–25 токенов/секунду на iPhone 15 Pro. Для интеграции в Swift используем Swift Package llama.swift или обёртку через C-интерфейс llama.h. Бинарник к приложению не прикладываем — модель скачивается при первом запуске и хранится в Application Support. Наши сертифицированные разработчики настраивают инкрементальную загрузку, чтобы не блокировать первый запуск.

На Android аналог — Google AI Edge (бывший MediaPipe LLM Inference API) с поддержкой Gemma-2B. Работает через GPU delegate, на Tensor G3 чипе Pixel 8 Pro — около 20 токенов/секунду.

Ограничения реальны: модели больше 4B параметров на мобильных устройствах по-прежнему медленны. Для сложных задач рассуждения on-device LLM уступает GPT-4o в качестве. Гибридный подход — on-device для коротких задач и приватных данных, облако для сложных запросов — часто оптимален. Оценим ваш кейс и предложим баланс производительности и приватности — пишите.

Интеграция OpenAI API и других облачных моделей

Для сценариев, где cloud inference допустим, интеграция OpenAI, Anthropic или Google Gemini — это HTTP клиент + streaming SSE. В Swift удобно через AsyncThrowingStream для стриминговых ответов. В Kotlin — через Flow.

Критически важно: API-ключи никогда не хранятся в бандле приложения. Даже обфусцированный ключ извлекается из IPA за 10 минут через strings или frida. Правильная архитектура: мобильное приложение → собственный backend → OpenAI API. Backend контролирует rate limiting, логирует запросы, защищает ключ.

Что входит в работу (deliverables)

Обученная и квантизированная модель под целевое устройство (документация по метрикам)
SDK для интеграции (Swift/Kotlin/Flutter) с примерами вызова
Тесты производительности на 3–5 реальных устройствах
Инструкция по обновлению модели OTA
Поддержка при прохождении модерации App Store / Google Play (проверка соответствия Guidelines 4.2, 5.1)
2 недели технической поддержки после релиза

Типичный пайплайн проекта

Анализ задачи — замеряем latency, privacy, size, поддерживаемые устройства.
Прототипирование модели — в Python, оценка accuracy на целевых данных.
Конвертация и квантизация — под CoreML/TFLite с валидацией.
Интеграция в приложение — модель оборачивается в сервисный слой (легко подменять CoreML → TFLite → облако).
Тестирование — на реальных девайсах, замер FPS, RAM, батареи.
Деплой — через TestFlight / Firebase App Distribution, мониторинг метрик.

Сроки: интеграция готовой CoreML/TFLite модели — 1–2 недели, разработка кастомной модели с мобильной оптимизацией — от 6 недель, on-device LLM чат с персонализацией — 4–8 недель.

Почему мы беремся за сложные кейсы?

10+ лет опыта в мобильной разработке, 50+ внедрённых AI/ML решений, гарантия совместимости с актуальными версиями iOS и Android. Все проекты проходят code review и нагрузочное тестирование. В стоимость уже входит подготовка документации для модерации и обучение вашей команды.

Свяжитесь с нами — мы поможем выбрать архитектуру и внедрить ML в ваше приложение под ключ. Закажите аудит существующего решения — бесплатно оценим потенциал экономии серверных затрат (в некоторых проектах экономия достигает $10k в месяц).