Какие форматы документов поддерживаются?

Мы поддерживаем PDF (включая сканы с OCR), DOCX, TXT, MD, XLSX. Для iOS DOCX требует серверной конвертации, поэтому в мобильном клиенте обычно ограничиваемся PDF и TXT. Все форматы обрабатываются через Files API OpenAI или клиентскую экстракцию.

Как обрабатываются сканированные PDF?

Сканы не содержат текстового слоя, поэтому мы применяем OCR: на Android — ML Kit TextRecognizer, на iOS — Vision VNRecognizeTextRequest. Каждая страница рендерится в изображение и прогоняется через распознавание. Это занимает 2–5 секунд на 50 страниц.

Что такое RAG и зачем он нужен?

RAG (Retrieval-Augmented Generation) — подход, при котором документ разбивается на чанки, индексируется в векторной базе, и при запросе модель получает только релевантные фрагменты. Это экономит токены (до 40%) и позволяет работать с документами любого объёма, не влезающими в контекст.

Безопасно ли передавать документы через сторонние AI-API?

Мы используем шифрование при передаче, а на клиенте данные не кэшируются. Для конфиденциальных документов можно развернуть локальную LLM или использовать self-hosted векторную базу. Всегда соблюдаем политики безопасности клиента.

Сколько времени занимает интеграция?

Базовая интеграция с PDF и TXT через Files API — 1–2 недели. Полный пайплайн с OCR, мультиформатностью и RAG — 4–6 недель. Сроки зависят от сложности документов и требований к офлайн-режиму.

Какие форматы документов поддерживаются?

Мы поддерживаем PDF (включая сканы с OCR), DOCX, TXT, MD, XLSX. Для iOS DOCX требует серверной конвертации, поэтому в мобильном клиенте обычно ограничиваемся PDF и TXT. Все форматы обрабатываются через Files API OpenAI или клиентскую экстракцию.

Как обрабатываются сканированные PDF?

Сканы не содержат текстового слоя, поэтому мы применяем OCR: на Android — ML Kit TextRecognizer, на iOS — Vision VNRecognizeTextRequest. Каждая страница рендерится в изображение и прогоняется через распознавание. Это занимает 2–5 секунд на 50 страниц.

Что такое RAG и зачем он нужен?

RAG (Retrieval-Augmented Generation) — подход, при котором документ разбивается на чанки, индексируется в векторной базе, и при запросе модель получает только релевантные фрагменты. Это экономит токены (до 40%) и позволяет работать с документами любого объёма, не влезающими в контекст.

Безопасно ли передавать документы через сторонние AI-API?

Мы используем шифрование при передаче, а на клиенте данные не кэшируются. Для конфиденциальных документов можно развернуть локальную LLM или использовать self-hosted векторную базу. Всегда соблюдаем политики безопасности клиента.

Сколько времени занимает интеграция?

Базовая интеграция с PDF и TXT через Files API — 1–2 недели. Полный пайплайн с OCR, мультиформатностью и RAG — 4–6 недель. Сроки зависят от сложности документов и требований к офлайн-режиму.

AI-ввод текста и документов в мобильном приложении

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1734 услуг

AI-ввод текста и документов в мобильном приложении

Средний

~3-5 дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
858
Разработка мобильного приложения для компании XOOMER
746
Разработка мобильного приложения для компании RHL
1162
Разработка мобильного приложения для компании ZIPPY
1034
Разработка мобильного приложения для компании Affhome
969
Разработка мобильного приложения для компании FLAVORS
563

Показать больше работ

Задача: извлечь данные из документа и передать в LLM

Пользователь открывает мобильное приложение, прикрепляет PDF контракта и спрашивает: «На каком сроке расторгается договор?» На первый взгляд — типовой сценарий. Но между file_picker и осмысленным ответом модели — десяток нетривиальных решений: от рендеринга каждой страницы скана до чанкинга 100-страничного файла, не влезающего в контекст. Мы реализовали такой функционал для нескольких проектов — финансовых, юридических, медицинских — и знаем каждый подводный камень. Ошибка в одном звене — и ответ модели бессмысленный, или вы рискуете получить блокировку за несоответствие App Store Review Guidelines по пользовательскому контенту. Чтобы этого избежать, разберём ключевые этапы: выбор способа передачи, обработка сканов, организация RAG для больших объёмов.

Как передать документ в LLM?

Большинство LLM принимают текст, а не PDF. Нужна конвертация. Рассмотрим два основных подхода.

Прямой upload через Files API

OpenAI Assistants API и Gemini Files API принимают PDF, DOCX, TXT напрямую. Для мобильного приложения это самый чистый путь: загружаем файл, получаем file_id, вставляем в messages[]. Но есть ограничения — у OpenAI лимит 512 МБ на файл и 100 файлов на assistant, и Files API привязан к Assistants/Batch, не к Chat Completions.

Извлечение текста на клиенте

Для PDF на Android — PdfRenderer (встроен с API 21) для рендеринга страниц в Bitmap + OCR через ML Kit TextRecognizer, или Apache PDFBox порт. На iOS — PDFKit + PDFPage.string для машинописного PDF; для сканов — Vision framework с VNRecognizeTextRequest. Текст уходит в content[] как строка. PDFKit documentation

Проблема сканированных документов

PDFKit.string вернёт пустую строку для PDF из отсканированных страниц — там нет текстового слоя. ML Kit TextRecognizer справляется, но нужно рендерить каждую страницу в Bitmap/CGImage и прогонять через OCR. Для 50-страничного документа это 2–5 секунд на устройстве.

Что делать со сканами и большими файлами?

Извлечение текста: подводные камни

На Android PdfRenderer требует ParcelFileDescriptor с флагом MODE_READ_ONLY. Если файл пришёл через content:// URI от FileProvider, нужен contentResolver.openFileDescriptor(). Прямой File() от content:// бросает FileNotFoundException — распространённая ошибка у тех, кто не работал с SAF (Storage Access Framework).

Многостраничные документы нужно обрабатывать постранично, не грузя всё в память сразу. PdfRenderer.Page нужно закрывать после каждой страницы — page.close() обязателен, иначе IllegalStateException на следующей итерации.

На iOS PDFDocument(url:) может вернуть nil для зашифрованных PDF. Обрабатывайте isEncrypted и запрашивайте пароль через UI, а не крашитесь молча.

Архитектурное решение для больших документов

Полный текст 100-страничного договора не влезет в контекстное окно большинства моделей — или влезет, но дорого. Правильный путь для объёмных документов — RAG: разбиваем на чанки по 500–1000 токенов с перекрытием 50–100 токенов, индексируем в векторную БД, при запросе ищем топ-5 релевантных чанков и только их передаём в context. Экономия на токенах — до 40% по сравнению с прямой передачей полного текста. Для документов до 10 страниц клиентская экстракция работает в 3 раза быстрее, чем загрузка через Files API с ожиданием ответа.

Для мобильного приложения это обычно означает серверную обработку: клиент загружает файл на бэкенд, бэкенд занимается чанкингом и эмбеддингами. На клиенте остаётся только UI запроса и рендеринг ответа. Реализовывать векторный поиск прямо на телефоне имеет смысл только для оффлайн-сценариев.

Сравнение подходов

Подход	Скорость	Стоимость токенов	Поддержка сканов
Прямой Files API	Быстро (сервер)	Высокая (весь текст)	Да (если есть текст)
Клиентская экстракция + текст	Средне (зависит от объёма)	Средняя (только текст)	Да (OCR на клиенте)
RAG с серверным чанкингом	Медленно (индексация), быстро (запрос)	Низкая (только релевантные чанки)	Да (если есть OCR)

Форматы и лимиты

Формат	Android	iOS	Лимит API (OpenAI)
PDF (текст)	PdfRenderer + PDFBox	PDFKit	512 МБ
PDF (скан)	ML Kit OCR	Vision VNRecognizeTextRequest	— (нужна предобработка)
DOCX	Apache POI (Java)	—	512 МБ (через Files API)
TXT / MD	Нативно	Нативно	Без ограничений
XLSX	Apache POI	—	512 МБ

DOCX на iOS без сторонних библиотек — боль. Либо серверная конвертация (LibreOffice headless), либо ограничиваете поддержку форматов PDF + TXT для мобильного клиента.

Что входит в работу под ключ

Аудит форматов документов в вашем продукте
Выбор оптимальной стратегии (Files API vs клиентская экстракция vs RAG)
Реализация загрузки файлов (file_picker, SAF, UIDocumentPickerViewController)
Конвертация и очистка текста (OCR для сканов)
Интеграция с LLM (OpenAI / Gemini / Anthropic)
Индикаторы прогресса для долгих операций
Тестирование на реальных документах разного качества
Документация и обучение команды

Почему выбирают нас

Мы — команда мобильных разработчиков с 5+ годами опыта в создании AI-решений под iOS и Android. Реализовали более 20 интеграций мультимодального ввода для финансовых, юридических и медицинских проектов. Гарантируем качество кода и соблюдение сроков. Свяжитесь с нами для оценки вашего проекта — подберём оптимальное решение под ваш бюджет.

Сроки: базовая поддержка PDF + TXT с прямой передачей — 1–2 недели. Полноценный pipeline с OCR, несколькими форматами и RAG для больших документов — 4–6 недель. Оценим ваш проект бесплатно — пишите.

AI и ML в мобильных приложениях: CoreML, TFLite и on-device модели

Мы различаем два принципиально разных подхода: приложение с on-device AI и приложение, которое просто вызывает облачное API. Первое работает без интернета, не отправляет данные пользователя на сторонние серверы и отвечает за 50 миллисекунд. Второе зависит от задержки сети и тарифного плана. Выбор архитектуры — ключевой этап, который напрямую влияет на стоимость, приватность и пользовательский опыт. Наш опыт показывает: в 70% проектов on-device инференс оказывается дешевле в долгосрочной перспективе за счёт исключения серверных затрат.

Как выбрать между CoreML и TFLite для on-device инференса?

CoreML — нативный фреймворк Apple для запуска ML-моделей на устройстве. Поддерживает Neural Engine (начиная с A11 Bionic), GPU и CPU как fallback. Модели конвертируются в формат .mlmodel через coremltools из PyTorch, ONNX или TensorFlow. Конвертация — не всегда тривиальна: кастомные слои требуют реализации MLCustomLayer, а квантизация до INT8 иногда заметно роняет точность на специфических данных. Мы гарантируем, что итоговая модель проходит валидацию на реальных данных до и после конвертации.

TensorFlow Lite — кросс-платформенная альтернатива для Android и Flutter. На Android использует NNAPI (Neural Networks API) для хардварного ускорения — с Android 10 NNAPI стабильнее, до этого лучше явно использовать GPU delegate через GpuDelegate. Типичная ошибка: модель обучена на нормализованных данных в диапазоне [0,1], а в приложении на вход подаётся [0,255] — инференс работает, но с бессмысленными результатами без ошибки. Мы включаем модуль автоматической валидации входных данных в SDK.

Для задач классификации изображений, детекции объектов и сегментации доступны готовые оптимизированные модели. YOLOv8 в CoreML формате запускает детекцию кадра 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite с GPU delegate — около 8 мс на Pixel 7 при классификации.

Параметр	CoreML	TFLite
Платформы	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Хардварное ускорение	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Поддержка квантизации	FP16, INT8 (с coremltools)	FP16, INT8, dynamic range
Кастомные операции	Через MLCustomLayer (Swift)	Через делегаты (Java/Kotlin)
Размер бандла модели	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Что делать, если нужна генерация текста на устройстве?

Запуск небольших языковых моделей на устройстве стал реальностью в последние несколько лет. Apple Intelligence использует собственные модели через Private Cloud Compute, но для сторонних разработчиков доступны другие пути.

llama.cpp с Metal backend на iOS — работающий подход для phi-3-mini (3.8B параметров, 4-bit квантизация, ~2.3 ГБ). Инференс: 15–25 токенов/секунду на iPhone 15 Pro. Для интеграции в Swift используем Swift Package llama.swift или обёртку через C-интерфейс llama.h. Бинарник к приложению не прикладываем — модель скачивается при первом запуске и хранится в Application Support. Наши сертифицированные разработчики настраивают инкрементальную загрузку, чтобы не блокировать первый запуск.

На Android аналог — Google AI Edge (бывший MediaPipe LLM Inference API) с поддержкой Gemma-2B. Работает через GPU delegate, на Tensor G3 чипе Pixel 8 Pro — около 20 токенов/секунду.

Ограничения реальны: модели больше 4B параметров на мобильных устройствах по-прежнему медленны. Для сложных задач рассуждения on-device LLM уступает GPT-4o в качестве. Гибридный подход — on-device для коротких задач и приватных данных, облако для сложных запросов — часто оптимален. Оценим ваш кейс и предложим баланс производительности и приватности — пишите.

Интеграция OpenAI API и других облачных моделей

Для сценариев, где cloud inference допустим, интеграция OpenAI, Anthropic или Google Gemini — это HTTP клиент + streaming SSE. В Swift удобно через AsyncThrowingStream для стриминговых ответов. В Kotlin — через Flow.

Критически важно: API-ключи никогда не хранятся в бандле приложения. Даже обфусцированный ключ извлекается из IPA за 10 минут через strings или frida. Правильная архитектура: мобильное приложение → собственный backend → OpenAI API. Backend контролирует rate limiting, логирует запросы, защищает ключ.

Что входит в работу (deliverables)

Обученная и квантизированная модель под целевое устройство (документация по метрикам)
SDK для интеграции (Swift/Kotlin/Flutter) с примерами вызова
Тесты производительности на 3–5 реальных устройствах
Инструкция по обновлению модели OTA
Поддержка при прохождении модерации App Store / Google Play (проверка соответствия Guidelines 4.2, 5.1)
2 недели технической поддержки после релиза

Типичный пайплайн проекта

Анализ задачи — замеряем latency, privacy, size, поддерживаемые устройства.
Прототипирование модели — в Python, оценка accuracy на целевых данных.
Конвертация и квантизация — под CoreML/TFLite с валидацией.
Интеграция в приложение — модель оборачивается в сервисный слой (легко подменять CoreML → TFLite → облако).
Тестирование — на реальных девайсах, замер FPS, RAM, батареи.
Деплой — через TestFlight / Firebase App Distribution, мониторинг метрик.

Сроки: интеграция готовой CoreML/TFLite модели — 1–2 недели, разработка кастомной модели с мобильной оптимизацией — от 6 недель, on-device LLM чат с персонализацией — 4–8 недель.

Почему мы беремся за сложные кейсы?

10+ лет опыта в мобильной разработке, 50+ внедрённых AI/ML решений, гарантия совместимости с актуальными версиями iOS и Android. Все проекты проходят code review и нагрузочное тестирование. В стоимость уже входит подготовка документации для модерации и обучение вашей команды.

Свяжитесь с нами — мы поможем выбрать архитектуру и внедрить ML в ваше приложение под ключ. Закажите аудит существующего решения — бесплатно оценим потенциал экономии серверных затрат (в некоторых проектах экономия достигает $10k в месяц).