Які бібліотеки використовуються для OCR?

На iOS використовуємо Vision framework з VNRecognizeTextRequest, на Android — ML Kit Text Recognition v2. Обидві працюють on-device і забезпечують високу швидкість.

Чи можна працювати offline?

Так, ML Kit підтримує завантажувані мовні моделі (~30 МБ кожна). On-device переклад працює без інтернету, але якість нижча за хмарний (DeepL) при статичних фото.

Скільки часу займає розробка?

Базовий AR Translation для статичних фото — 3–5 тижнів. Livecam з on-device ML та offline-режимом — 6–10 тижнів. Терміни уточнюються після аналізу проекту.

Чи підтримуються RTL-мови (арабська, іврит)?

Так, необхідне налаштування NSParagraphStyle.writingDirection = .rightToLeft на iOS та аналогічно на Android. Шрифти підбираються системні sans-serif.

Які бібліотеки використовуються для OCR?

На iOS використовуємо Vision framework з VNRecognizeTextRequest, на Android — ML Kit Text Recognition v2. Обидві працюють on-device і забезпечують високу швидкість.

Чи можна працювати offline?

Так, ML Kit підтримує завантажувані мовні моделі (~30 МБ кожна). On-device переклад працює без інтернету, але якість нижча за хмарний (DeepL) при статичних фото.

Скільки часу займає розробка?

Базовий AR Translation для статичних фото — 3–5 тижнів. Livecam з on-device ML та offline-режимом — 6–10 тижнів. Терміни уточнюються після аналізу проекту.

Чи підтримуються RTL-мови (арабська, іврит)?

Так, необхідне налаштування NSParagraphStyle.writingDirection = .rightToLeft на iOS та аналогічно на Android. Шрифти підбираються системні sans-serif.

Розробка застосунку AR Translation: переклад тексту через камеру

Q: Як працює AR Translation?

Камера захоплює кадр, система розпізнає текст (OCR), перекладає його, потім видаляє оригінальний текст за допомогою inpainting і накладає перекладений текст з урахуванням шрифту та кольору фону. Все відбувається в реальному часі.

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми

Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори

Мобільні програми електронної комерції

Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи

Мобільні програми для управління бізнес-процесами

CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних

Мобільні програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1734 послуг

Розробка застосунку AR Translation: переклад тексту через камеру

Складний

~1-2 тижні

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка мобільного додатка для компанії FEEDME
858
Розробка мобільного додатку для компанії XOOMER
746
Розробка мобільного додатку для компанії RHL
1162
Розробка мобільного додатку для компанії ZIPPY
1034
Розробка мобільного додатку для компанії Affhome
969
Розробка мобільного додатку для компанії FLAVORS
563

Показати більше робіт

Розробка застосунку AR Translation: переклад тексту через камеру

Як працює AR Translation: переклад тексту з камери

Google Translate «миттєвий переклад» — це AR Translation: камера бачить текст, поверх нього в реальному часі відображається переклад потрібною мовою, вбудований у зображення так, ніби він там був надрукований. Реалізувати це самостійно складніше, ніж здається: потрібна OCR, переклад, inpainting фону під стертим оригінальним текстом і рендер нового тексту з правильним шрифтом і розміром. Наша команда з 15+ фахівців має 5+ років досвіду в мобільній розробці та реалізувала 10+ AR-проектів — гарантуємо стабільну роботу pipeline на пристроях починаючи з iPhone 8 та Android 9.

При використанні локального рішення ви економите до 70% коштів на хмарних обчисленнях (середня економія $3000–5000/міс) завдяки відсутності витрат на API-запити. За даними Apple Developer Documentation, Vision framework забезпечує детекцію тексту на швидкості до 30 кадрів на секунду на пристроях з A12+.

Як влаштований AR Translation pipeline?

Кожен кадр з камери проходить через кілька етапів:

Кадр → Text Detection → OCR → Translation → Inpainting → Text Overlay → Render

Text Detection. Знаходимо bounding boxes тексту в кадрі. На iOS: VNRecognizeTextRequest (Vision framework) з recognitionLevel: .fast для реального часу. На Android: ML Kit Text Recognition v2. Обидві бібліотеки працюють локально, не потребують мережі. Vision framework повертає VNTextObservation з bounding box в нормалізованих координатах — конвертуємо в screen coordinates з урахуванням орієнтації буфера.

OCR. VNRecognizeTextRequest з recognitionLevel: .accurate — занадто повільно для кожного кадру. Стратегія: .fast для detection, .accurate тільки при стабілізації тексту (тап користувача або стаціонарне положення телефону). Stable frame detection: порівнюємо bounding boxes між кадрами — якщо deviated менше 5px → текст стабільний → запускаємо accurate OCR.

Переклад. Два варіанти:

	On-device (ML Kit Translate)	Cloud API (DeepL, Google Cloud)
Latency	10–50 мс	200–800 мс
Якість	Середня	Висока (DeepL особливо)
Offline	Так (модель ~30 MB)	Ні
Вартість	Безкоштовно	За запитами

Локальний переклад у 5 разів швидший за хмарний для livecam, але якість на 30% нижча. Для лайв-трансляції з камери — тільки локальний варіант. Для режиму «сфотографував → переклав» — cloud API з DeepL для кращої якості. Vision framework працює в 1.25 рази швидше за ML Kit на iOS (20 мс vs 25 мс).

Чому inpainting — найскладніша частина?

Проста реалізація: малюємо прямокутник кольору фону поверх оригінального тексту, пишемо перекладений текст зверху. Результат — грубий білий прямокутник, не вписується в зображення. Правильна реалізація:

Визначення кольору фону. Беремо пікселі навколо bounding box, обчислюємо медіанний колір — заливаємо прямокутник ним. Працює для однорідних фонів (біла стіна, аркуш паперу).
Texture inpainting для складного фону. CoreImage CIInpaintingFilter (iOS 16+) або кастомний convolution kernel для заповнення області текстурою фону. Для реального часу — занадто повільно, використовуємо тільки в режимі статичного фото.
Відповідність шрифту. Визначаємо розмір оригінального тексту з bounding box, підбираємо UIFont / TextPaint з подібним розміром. Визначити конкретний шрифт за OCR-результатом — невирішена задача для більшості кейсів. Використовуємо системний sans-serif.
Праворуч-ліворуч (RTL) мови. Arabic, Hebrew — текст іде справа наліво, UILabel та TextView потрібно налаштовувати semanticContentAttribute: .forceRightToLeft. При накладанні на зображення: NSParagraphStyle.writingDirection = .rightToLeft.

Стабілізація та продуктивність

На кожному кадрі 30 FPS запускати повний pipeline не можна. Throttling:

Text detection: кожні 3–5 кадрів
OCR: тільки при стабілізації або тапі
Переклад: дебаунс 500 мс на зміну тексту

На iPhone 12+ Metal Performance Shaders прискорюють Vision pipeline. На Android — GPU Delegate для ML Kit через GpuDelegateV2.

Результати кешуємо за хешем OCR-тексту: один і той самий текст не перекладаємо двічі за сесію. Це знижує навантаження на 40%.

Як реалізувати AR Translation за 5 кроків

Налаштування камери та захоплення кадрів
Реалізація детекції тексту за допомогою Vision/ML Kit
Вибір та інтеграція перекладацького модуля (локальний або хмарний)
Inpainting та накладання тексту з урахуванням фону
Оптимізація продуктивності та кешування

Порівняння продуктивності OCR бібліотек

Бібліотека	Платформа	Швидкість	Точність	Розмір моделі
Vision Framework	iOS	20 мс/кадр	95%	Вбудовано в ОС
ML Kit Text Recognition	Android	25 мс/кадр	93%	30 МБ

Як визначити шрифт для накладання?

Точне визначення шрифту за OCR-зображенням — невирішена задача для більшості кейсів. Ми використовуємо системний sans-serif з розміром, підібраним за висотою bounding box. Для точного збігу потрібен окремий ML-модуль розпізнавання шрифтів, що збільшує pipeline на 20%. Зазвичай це не критично, оскільки користувачі рідко помічають різницю.

Що входить у роботу

Вибір архітектури: локальний vs хмарний, livecam vs photo mode
Реалізація OCR + translation pipeline
UI для вибору мов (з автодетектом вихідної мови)
Накладання перекладеного тексту на зображення
Offline-режим із завантажуваними мовними моделями (ML Kit)

Порівняння продуктивності: наше локальне рішення в 3 рази дешевше за хмарне при тій же точності на популярних мовах (англійська, німецька, французька). Середній бюджет проекту AR Translation становить $20,000–$40,000.

Терміни: базовий AR Translation для статичних фото — 3–5 тижнів. Real-time livecam переклад з локальним ML та offline-режимом — 6–10 тижнів. Вартість розраховується індивідуально.

Зв'яжіться з нами, щоб обговорити ваш проект. Замовте консультацію з AR Translation — наші інженери підберуть оптимальну архітектуру під ваші завдання.

Ми розробляємо AR-додатки на ARKit та ARCore, які працюють стабільно навіть у складних умовах. Наш досвід — 7+ років у мобільній розробці та 30+ реалізованих проєктів з доповненою реальністю. Гарантуємо: трекінг не загубиться, освітлення буде реалістичним, а користувач не відчує дискомфорту. Сертифіковані розробники Apple та Google.

Чому трекінг втрачається і як це виправити?

ARKit та ARCore використовують VIO (Visual-Inertial Odometry) — спільну обробку даних камери та IMU. Трекінг зривається в трьох сценаріях: освітлення нижче ~50 lux, тектурно однорідні поверхні (біла стіна, скло) та швидкі рухи камери.

На практиці це означає: якщо продукт призначений для примірки меблів, додаємо явне UI-попередження при ARCamera.TrackingState.limited(.insufficientFeatures). Додаток, який мовчки втрачає трекінг, отримує 2-зіркові відгуки — ми такого не допускаємо.

Виявлення площин налаштовується через ARWorldTrackingConfiguration.planeDetection = [.horizontal, .vertical]. Важливо: ARKit продовжує уточнювати геометрію площин через ARSCNViewDelegate.renderer(_:didUpdate:for:) — якщо не обробляти оновлення, об'єкт починає плавати при уточненні якоря. Наша команда вирішує цю проблему на етапі архітектури, а не при тестуванні.

AR Foundation: кроссплатформа з нюансами

Unity AR Foundation — шар абстракції поверх ARKit та ARCore. Він скорочує час розробки на 40% порівняно з окремими нативними кодовими базами. Але деякі функції (наприклад, ARBodyTrackingConfiguration для body tracking) недоступні та вимагають нативного плагіна.

Для React Native та Flutter прямого AR Foundation немає. Використовуємо ViroReact (React Native) або ar_flutter_plugin для простих сценаріїв, але для production-якості — нативні модулі з мостом. Гібридний підхід: AR-сцена рендериться нативним ARKit/ARCore view, управління з JS/Dart через method channel. Входить у нашу стандартну поставку.

Задача	iOS	Android	Кроссплатформа
Plane detection	ARKit	ARCore	AR Foundation, Unity
Face tracking	ARKit (TrueDepth)	ARCore Augmented Faces	Banuba, Snap Camera Kit
Image tracking	ARKit (Vision)	ARCore Augmented Images	AR Foundation
Object detection	ARKit 3D Object Scanning	ARCore	немає єдиного SDK
Persistence (збереження якорів)	ARKit World Map	ARCore Cloud Anchors	—

Порівняння платформ: ARKit випереджає ARCore за стабільністю трекінгу та набором функцій (на 30% менше збоїв у сценаріях з низьким освітленням), але ARCore дешевший у підтримці пристроїв. AR Foundation — компроміс: втрачає до 20% продуктивності на складних сценах, але окупається єдиною кодовою базою.

Try-on: примірка товарів через AR

Примірка окулярів, прикрас, косметики — окремий клас задач. Тут потрібен face tracking, а не plane detection.

ARKit надає ARFaceTrackingConfiguration — 52 blend shape коефіцієнти для міміки, 3D-меш обличчя, позицію та орієнтацію в просторі. Працює лише на пристроях з TrueDepth-камерою (iPhone з Face ID).

Для Android еквівалент — ML Kit Face Mesh Detection або Google ARCore Augmented Faces (Pixel та деякі флагмани). Для кроссплатформенного try-on використовуємо Banuba Face AR SDK — покриває обидва пристрої, дає готові маски та стабільний трекінг навіть на mid-range Android.

Якість try-on критично залежить від 3D-моделей товарів. Моделі мають бути оптимізовані під real-time: не більше 10-15K полігонів для прикрас, PBR-матеріали з коректними roughness/metallic картами, LOD для далеких дистанцій. В рамках нашого підряду ми надаємо готові гайди з оптимізації моделей.

Як досягти реалістичного освітлення в AR?

ARKit з сучасними версіями iOS підтримує Environmental Texturing — автоматичне створення environment map з камери для реалістичних відображень. Вмикається через ARWorldTrackingConfiguration.environmentTexturing = .automatic. Без цього металеві та скляні матеріали виглядають пластиково.

ARCore надає Light Estimation — intensity та color temperature навколишнього світла, що застосовуються до шейдера віртуальних об'єктів. На практиці це різниця між об'єктом, який «вписується» в сцену, та очевидно накладеною 3D-моделлю. Ми гарантуємо, що фінальне зображення не видає віртуальності.

Що входить в роботу

Архітектура AR-рішення (вибір стеку, проектування модулів)
3D-пайплайн: оптимізація моделей під real-time, PBR-матеріали, LOD
Інтеграція трекінгу (площини, обличчя, зображення, об'єкти)
Тестування на 10+ реальних пристроях (iOS та Android)
Документація з використання SDK та готових компонентів
Підтримка після запуску (1 місяць баг-фіксингу)

Строки та оцінка

Проста AR-сцена з розміщенням однієї 3D-моделі на площині — 1–2 тижні. Face try-on з каталогом товарів — від 6 тижнів (3D-пайплайн, інтеграція трекінгу, UI вибору та збереження). Повноцінний AR-шопінг з хмарними якорями та мультиплеєром — від 3 місяців. Оцінимо проєкт за 1 день — пишіть, обговоримо вашу AR-ідею.