Реализация Visual Positioning System (VPS) в мобильном AR-приложении
GPS даёт 3–5 метров точности. Для AR-опыта в городской среде этого катастрофически мало: накладывать навигационные стрелки поверх конкретного входа в здание или показывать AR-аннотацию над нужной скульптурой в музейном дворе при 5-метровой погрешности невозможно. VPS решает это: пользователь наводит камеру на окружающее пространство, алгоритм матчит кадр против предзаписанной визуальной карты и возвращает позицию с точностью до 10–30 сантиметров.
Как работает VPS
Два этапа: mapping (оффлайн) и localization (онлайн, в реальном времени).
Mapping. Помещение или уличная зона сканируется: оператор с телефоном или специализированным rig проходит по всей области, записывая видео. Из видео извлекаются ключевые кадры, запускается Structure from Motion (SfM) алгоритм — строится sparse point cloud и набор 6DOF поз камеры. Дескрипторы feature points (ORB, SuperPoint + SuperGlue для лучшей точности) индексируются в базе данных для быстрого поиска.
Localization. Телефон снимает кадр, отправляет на сервер (или обрабатывает локально на мощных устройствах). Алгоритм image retrieval находит ближайшие ключевые кадры из базы → PnP (Perspective-n-Point) вычисляет позу камеры → возвращает 6DOF transform. Всё это за 200–500 мс при серверной обработке.
Провайдеры и SDK
| Провайдер | Покрытие | Offline | Точность |
|---|---|---|---|
| Google ARCore Geospatial API | Города со Street View | Нет | ~10–30 см |
| Immersal SDK | Кастомные карты | Да (device) | ~2–5 см |
| Niantic Lightship VPS | Lightship wayspots | Нет | ~10–20 см |
| Apple ARKit + GPS | Outdoor, iOS only | Частично | ~1–3 м |
| Microsoft Azure Spatial Anchors | Кастомные | Нет | ~1–5 см |
Для кастомных закрытых пространств (музей, офис, склад) — Immersal. Для городских AR-опытов на iOS — ARCore Geospatial API или Niantic VPS. Azure Spatial Anchors хороши при интеграции с Azure-инфраструктурой заказчика.
Интеграция Immersal в нативное приложение
Immersal предоставляет REST API для cloud localization и Unity SDK — последний нам неинтересен, работаем нативно.
iOS: HTTP запрос к https://api.immersal.com/localize с JPEG кадром и camera intrinsics → JSON-ответ с позой в системе координат карты → конвертируем в ARKit world space через матричное преобразование.
struct LocalizeRequest: Encodable {
let token: String
let fx, fy, ox, oy: Double // camera intrinsics из ARCamera.intrinsics
let image: String // base64 JPEG
}
// Получаем mapToWorld matrix, применяем к ARSession.currentFrame
Android: аналогично через retrofit2 + moshi, camera intrinsics из CameraCharacteristics.
Локализацию запускаем не на каждом кадре (это 200 мс latency) — триггер при смене позиции на 1+ метр или при потере ARCore tracking.
Построение визуальной карты
Сканирование для Immersal: специальное iOS-приложение Immersal Mapper, либо кастомный скрипт через REST API. Требования к съёмке: перекрытие кадров 60%+, равномерное освещение, полное покрытие маршрутов пользователей. Для большого пространства (торговый центр 3 этажа) — несколько часов работы оператора.
После загрузки видео на сервер Immersal: SfM обработка 30–120 минут, получаем mapId. При обновлении интерьера — пересканируем изменённые зоны и мерджим с существующей картой через Immersal Console.
Сроки
Интеграция ARCore Geospatial для городского AR-опыта: 2–4 недели. Кастомная VPS с Immersal для закрытого помещения включая сканирование: 4–8 недель. Собственный VPS-сервер на базе HLoc (hloc + SuperPoint + SuperGlue + Colmap) без внешних зависимостей: 3–5 месяцев. Стоимость рассчитывается индивидуально.







