ИИ-автономный магазин без кассиров
Amazon Go доказала концепцию в 2018-м. Технология доступна малому и среднему ритейлу — уже без 300 камер и петабайтных инфраструктур Amazon. Современный стек: 15–30 камер на 80–120 м², edge-обработка, распознавание без QR-кодов и весовых сенсоров.
Технический стек
Автономный магазин строится на трёх CV-системах, работающих совместно:
1. Идентификация покупателя — при входе: Face recognition (FaceNet, ArcFace) или биометрия + привязка к аккаунту/банковской карте. В ряде юрисдикций (ЕС GDPR) biometric识别 требует явного consent — альтернатива: QR в приложении.
2. Трекинг перемещений — re-identification без биометрии. Покупателю присваивается анонимный ID, его appearance embedding (одежда, силуэт) отслеживается через всю сеть камер. BoT-SORT или StrongSORT для multi-camera re-ID.
3. Детекция взаимодействий с товаром — какой товар взяли/положили обратно. Это самая сложная часть.
Детекция «взял/положил»: глубокий разбор
Это центральная техническая задача. Два подхода:
Computer vision-only — камеры над полками детектируют руку + товар, классифицируют действие. Проблема: загораживание телом, похожие товары, частичная видимость.
CV + shelf sensors — камеры + IoT-датчики на полках (весовые или ёмкостные). CV определяет кто взял, датчик — что и сколько. Более надёжно, но дороже в установке.
Для CV-only: специализированная модель взаимодействия рука-объект (hand-object interaction detection). Стек: YOLOv8 для детекции руки и товара → temporal model (TSN, SlowFast) для классификации действия (grab/put back) по последовательности 16 кадров.
# SlowFast для классификации действия grab/put-back
import torch
from pytorchvideo.models import create_slowfast
model = create_slowfast(
input_channels=(3, 3),
model_num_class=3, # grab / put_back / no_action
slowfast_alpha=8,
slowfast_beta_inv=8
)
# Входные данные: slow pathway (8 fps) + fast pathway (64 fps)
slow_frames = frames[::8] # (B, 3, T_slow, H, W)
fast_frames = frames # (B, 3, T_fast, H, W)
logits = model([slow_frames, fast_frames])
Распознавание товаров
Два уровня:
- SKU-level recognition — определение конкретного артикула (штрих-код читать не нужно, распознаём по внешнему виду). Fine-tuned EfficientNet-B5 на каталоге товаров. Точность на 500 SKU: top-1 accuracy 0.91.
- Product category — если SKU не опознан точно (новый товар, повреждённая упаковка): generic category (молоко/йогурт/сок), запрос подтверждения или среднее значение цены по категории.
Проблема: товары постоянно обновляются (новый дизайн упаковки, новые SKU). Нужен пайплайн onboarding новых товаров: фото с 4–8 ракурсов → augmentation → дообучение классификатора за ночь.
Расчёт и оплата
Виртуальная корзина формируется в реальном времени: покупатель взял товар → добавлен в корзину. Положил обратно → удалён. При выходе: автоматическое списание с привязанной карты, чек на email.
Edge cases: два покупателя берут один товар одновременно (разрешение через temporal analysis + proximity to shelf), малолетние дети (parent's account), повреждённый товар.
Сроки и масштаб
| Размер магазина | Камеры | Срок внедрения |
|---|---|---|
| Микромаркет 20–40 м² | 6–10 | 8–12 недель |
| Магазин у дома 60–120 м² | 15–25 | 14–22 недели |
| Супермаркет 300+ м² | 50–100+ | 6–12 месяцев |
Стоимость рассчитывается с учётом оборудования, зон магазина и ассортимента.







