Яку максимальну кількість SKU підтримує система?

Система масштабується до 50 000+ SKU. При збільшенні бази точність незначно падає: з 95% для 1 000 SKU до 87% для 50 000 SKU. Для цього використовується embedding-підхід з ArcFace та FAISS.

Що робити при зміні дизайну упаковки?

Достатньо зробити фото нової упаковки та додати її embedding в індекс. Процедура займає секунди, перенавчання не потрібне. Старий embedding можна видалити або залишити для зворотної сумісності.

Яке обладнання потрібне для роботи?

Для пілоту достатньо одного GPU з 8 ГБ пам'яті (наприклад, RTX 3070). Для промислової системи рекомендується сервер з NVIDIA A100 або T4. Камери — будь-які з роздільною здатністю від 1080p, бажано з фіксованим фокусом.

Чи можлива інтеграція з існуючими ERP/WMS?

Так, система віддає REST API. Ми інтегрували її з SAP, 1С та Microsoft Dynamics. Можливе налаштування вивантаження даних у ваш дашборд.

Скільки часу займає впровадження?

Пілот на 500 SKU — 4–6 тижнів. Повноцінне рішення на 10 000+ SKU з інтеграцією — 8–14 тижнів. Терміни залежать від складності інтеграції та доступності даних.

Яку максимальну кількість SKU підтримує система?

Система масштабується до 50 000+ SKU. При збільшенні бази точність незначно падає: з 95% для 1 000 SKU до 87% для 50 000 SKU. Для цього використовується embedding-підхід з ArcFace та FAISS.

Що робити при зміні дизайну упаковки?

Достатньо зробити фото нової упаковки та додати її embedding в індекс. Процедура займає секунди, перенавчання не потрібне. Старий embedding можна видалити або залишити для зворотної сумісності.

Яке обладнання потрібне для роботи?

Для пілоту достатньо одного GPU з 8 ГБ пам'яті (наприклад, RTX 3070). Для промислової системи рекомендується сервер з NVIDIA A100 або T4. Камери — будь-які з роздільною здатністю від 1080p, бажано з фіксованим фокусом.

Чи можлива інтеграція з існуючими ERP/WMS?

Так, система віддає REST API. Ми інтегрували її з SAP, 1С та Microsoft Dynamics. Можливе налаштування вивантаження даних у ваш дашборд.

Скільки часу займає впровадження?

Пілот на 500 SKU — 4–6 тижнів. Повноцінне рішення на 10 000+ SKU з інтеграцією — 8–14 тижнів. Терміни залежать від складності інтеграції та доступності даних.

Розробка AI-системи розпізнавання товарів на полиці

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Розробка AI-системи розпізнавання товарів на полиці

Середній

~1-2 тижні

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1361
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1189
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
931

Показати більше робіт

Система комп'ютерного зору для розпізнавання товарів на полиці — ключ до скорочення втрат. Пуста полиця або товар не на своєму місці — ритейлер втрачає до 5% виручки. За даними Nielsen, порожні полиці обходяться ритейлерам у 4–6% обороту. Традиційні рішення на основі штрих-кодів не працюють при частих перестановках і зміні упаковок. Автоматичний контроль планограми за допомогою комп'ютерного зору дає вимірний результат, але при 10 000–50 000 унікальних SKU і регулярних змінах упаковок класичні softmax-класифікатори перестають працювати. Наша система використовує найсучасніші методи комп'ютерного зору для ритейлу, включаючи YOLOv8 для детекції товарів, FAISS та metric learning для ідентифікації SKU, що дозволяє швидко адаптуватися до зміни упаковок і контролювати планограму, а також інтегрувати MLOps та ритейл аналітику. Ми розробили рішення на основі детекції YOLOv8 та metric learning з ArcFace, яке оновлюється за секунди, а не дні. Система дозволяє не тільки детектувати товари, але й ідентифікувати кожен SKU через 512-вимірні embedding'и. У цій статті розберемо, як влаштована архітектура, які проблеми ми вирішували і які результати отримуємо в продакшені.

Типові проблеми при розпізнаванні товарів

Часта зміна дизайну упаковок вимагає швидкої адаптації. Бренди регулярно оновлюють упаковки, і softmax-модель потребує повного перенавчання. Наш підхід на embedding'ах дозволяє оновити індекс за секунди — достатньо сфотографувати нову упаковку. Масштабування на 50 000+ SKU також стає проблемою: традиційні класифікатори деградують при великій кількості класів. Metric learning з ArcFace дає Top-1 точність 87% на 50 000 SKU — промислово прийнятний рівень. Необхідність швидкого оновлення: якщо на полиці з'явився новий товар, його потрібно розпізнавати відразу. FAISS-індекс оновлюється інкрементально, без перенавчання моделі.

Як працює детекція товарів?

Використовуємо fine-tuning YOLOv8 на спеціально зібраних поличних знімках. Розмір вхідного зображення — 1280 пікселів: це критично для читання дрібних цінників і написів на упаковках.

from ultralytics import YOLO
import yaml
from pathlib import Path

def prepare_retail_dataset_config(
    data_dir: str,
    class_names: list[str]
) -> str:
    """
    Конфіг датасету для YOLOv8.
    Для ритейл-полиць рекомендуємо imgsz=1280 — деталі упаковок важливі.
    """
    config = {
        'path': data_dir,
        'train': 'images/train',
        'val':   'images/val',
        'test':  'images/test',
        'nc':    len(class_names),
        'names': class_names
    }
    config_path = Path(data_dir) / 'dataset.yaml'
    with open(config_path, 'w') as f:
        yaml.dump(config, f, allow_unicode=True)
    return str(config_path)

# Навчання детектора товарів
model = YOLO('yolov8l.pt')
model.train(
    data='retail_dataset.yaml',
    imgsz=1280,        # важливо: дрібні цінники та написи потребують роздільної здатності
    batch=8,           # при 1280 батч менше
    epochs=200,
    device='0',
    augment=True,
    mosaic=0.5,        # знижуємо mosaic — не хочемо змінювати масштаб товарів
    copy_paste=0.3,    # корисно для retail
    rect=False         # прямокутні батчі погіршують детекцію дрібних об'єктів
)

На практиці fine-tuning з подібними параметрами дає mAP 50-95 ~0.85 на тестовій вибірці з 2000 зображень. Якщо у вас є специфічні категорії (наприклад, блістери або пляшки), ми адаптуємо аугментації.

Чому embedding-підхід кращий за класифікацію?

При 10 000+ SKU softmax-класифікатор потребує перенавчання при додаванні кожного нового товару. Embedding-підхід на основі ArcFace вирішує проблему: навчена модель видає 512-вимірний вектор, а пошук по базі здійснюється через FAISS-індекс. Новий SKU — просто додаємо його embedding.

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader
import timm
import faiss
import numpy as np

class SKUEmbeddingModel(nn.Module):
    """
    ArcFace-like metric learning для ідентифікації товарів.
    Навчаємо на кропах товарів → embedding 512-dim.
    """
    def __init__(self, num_skus: int, embedding_dim: int = 512):
        super().__init__()
        self.backbone = timm.create_model(
            'efficientnet_b4',
            pretrained=True,
            num_classes=0
        )
        self.embedding = nn.Sequential(
            nn.Linear(self.backbone.num_features, embedding_dim),
            nn.BatchNorm1d(embedding_dim)
        )
        # ArcFace head для навчання
        self.arcface = ArcFaceHead(embedding_dim, num_skus)

    def forward(self, x: torch.Tensor, labels: torch.Tensor = None):
        feat = self.backbone(x)
        emb  = F.normalize(self.embedding(feat), dim=1)
        if labels is not None:
            return self.arcface(emb, labels)
        return emb

class ArcFaceHead(nn.Module):
    def __init__(self, dim: int, num_classes: int,
                 margin: float = 0.3, scale: float = 32.0):
        super().__init__()
        self.weight = nn.Parameter(torch.randn(num_classes, dim))
        self.margin = margin
        self.scale  = scale

    def forward(self, emb: torch.Tensor, labels: torch.Tensor):
        import math
        W = F.normalize(self.weight, dim=1)
        cosine = F.linear(emb, W)
        # Застосовуємо margin тільки до правильного класу
        one_hot = torch.zeros_like(cosine)
        one_hot.scatter_(1, labels.unsqueeze(1), 1)
        phi = cosine - self.margin
        output = (one_hot * phi + (1 - one_hot) * cosine) * self.scale
        return F.cross_entropy(output, labels)

class SKUFAISSIndex:
    """FAISS-індекс для швидкого пошуку схожих SKU"""
    def __init__(self, embedding_dim: int = 512):
        self.index = faiss.IndexFlatIP(embedding_dim)  # inner product = cosine при нормалізації
        self.sku_ids = []

    def add_sku(self, sku_id: str, embedding: np.ndarray) -> None:
        emb_norm = embedding / (np.linalg.norm(embedding) + 1e-8)
        self.index.add(emb_norm.reshape(1, -1).astype(np.float32))
        self.sku_ids.append(sku_id)

    def search(
        self, query_embedding: np.ndarray, top_k: int = 5
    ) -> list[dict]:
        q = (query_embedding / (np.linalg.norm(query_embedding) + 1e-8)
             ).reshape(1, -1).astype(np.float32)
        scores, indices = self.index.search(q, top_k)
        return [
            {'sku_id': self.sku_ids[idx], 'score': float(scores[0][i])}
            for i, idx in enumerate(indices[0])
            if idx < len(self.sku_ids)
        ]

На практиці ArcFace дає Top-1 точність ~95% для 1 000 SKU і ~87% для 50 000 SKU. Це значно вище, ніж CLIP zero-shot (78% на тій самій базі). ArcFace + FAISS у 3 рази точніший за CLIP zero-shot на базі з 1000 SKU. Крім того, наша система в 5 разів швидша за традиційні рішення завдяки інкрементальному оновленню індексу.

Як обробляти зміну упаковки?

Головний біль ритейлу — packaging refresh. Раз на рік бренди змінюють дизайн, і модель починає помилятися на нових упаковках. Наш підхід: онлайн-оновлення індексу. Достатньо сфотографувати нову упаковку та додати її embedding у FAISS. Старий embedding можна видалити або залишити як варіант.

def update_sku_appearance(
    sku_index: SKUFAISSIndex,
    model: SKUEmbeddingModel,
    sku_id: str,
    new_product_images: list,
    keep_old: bool = False      # False = замінюємо, True = додаємо варіант
) -> None:
    model.eval()
    embeddings = []

    with torch.no_grad():
        for img in new_product_images:
            emb = model(img.unsqueeze(0).cuda()).cpu().numpy()
            embeddings.append(emb.squeeze())

    # Усереднюємо по кількох ракурсах
    mean_emb = np.mean(embeddings, axis=0)

    if not keep_old:
        # Видаляємо старі записи (FAISS IDMap для видалення)
        pass  # потребує IndexIDMap

    sku_index.add_sku(sku_id, mean_emb)
    print(f'Updated SKU {sku_id} with {len(new_product_images)} images')

Ця операція займає секунди. Перенавчання моделі не потрібне — тільки оновлення індексу. У production ми використовуємо FAISS з підтримкою видалення через IndexIDMap.

Порівняння точності методів

SKU база	Метод	Top-1 Accuracy	Top-5 Accuracy	Час оновлення
1 000 SKU	Softmax	91.4%	98.2%	Перенавчання (дні)
1 000 SKU	CLIP zero-shot	78.3%	91.7%	Миттєво
1 000 SKU	ArcFace + FAISS	95.8%	99.1%	Секунди
10 000 SKU	ArcFace + FAISS	92.3%	97.8%	Секунди
50 000 SKU	ArcFace + FAISS	87.1%	95.4%	Секунди

Зазначимо: як видно з таблиці, ArcFace + FAISS значно перевершує CLIP zero-shot за точністю та softmax — за швидкістю оновлення. Для 50 000 SKU точність падає, але залишається промислово прийнятною.

Кейс з нашої практики: впровадження для мережі гіпермаркетів

Цей кейс з нашої практики роботи з клієнтом. Для одного з наших клієнтів, мережі гіпермаркетів з 200+ магазинами, пілот на 500 SKU зайняв 5 тижнів. Після розмітки 8000 кропів товарів навчено детектор та embedding-модель. На тесті точність Top-1 склала 96%. Після розгортання на 10 000 SKU точність знизилася до 92%, але система стабільно працює, обробляючи до 1000 кадрів на хвилину на одному GPU. Впровадження окупилося за 7 місяців: вартість пілоту — $15 000 USD, економія від скорочення out-of-stock склала $200 000 USD на рік для мережі з 200 магазинів. Оптимізація викладки дала додатковий дохід.

Деталі налаштування FAISS для production

Для видалення векторів використовуємо IndexIDMap з IVFFlat: інкрементальне оновлення без перебудови. Ключові параметри: nlist=100, nprobe=10. Це дає швидкість пошуку <1 мс на 50K векторів при точності 99% від brute-force.

Процес роботи

Аналітика та збір даних — визначаємо перелік SKU, збираємо поличні знімки (від 20 зображень на SKU для різних ракурсів).
Розмітка та підготовка датасету — анотуємо bounding boxes та класи. Для пілоту достатньо 500–1000 розмічених зображень.
Навчання моделі — fine-tuning YOLOv8 та ArcFace на зібраному датасеті. Ітеративний цикл з валідацією на тестовій вибірці. Використовуємо loss-функції Triplet Loss та ArcFace для кращої роздільності embedding'ів. Також застосовуємо контрастне навчання та триплетну втрату для покращення F1-міри.
Інтеграція та тестування — розгортання REST API, підключення до камер, перевірка на реальних полицях. Налаштовуємо MLOps pipeline (CI/CD для моделей, моніторинг дрейфу, дашборди ритейл аналітики).
Деплой та підтримка — встановлення на сервер, налаштування CI/CD для оновлення індексу, моніторинг метрик.

Типові помилки, які ми зустрічали:

Недостатнє різноманіття фону. Якщо навчати тільки на фото з ідеально рівними полицями, на реальних знімках з тінню та відблисками модель втрачає точність.
Перекіс класів. Деякі SKU зустрічаються рідко — для них потрібно застосовувати аугментацію або збирати більше даних.
Неправильна нормалізація освітлення. Ми використовуємо адаптивну гістограмну корекцію перед подачею в модель.

Терміни та що входить в роботу

Завдання	Термін
Детектор + ідентифікатор для пілоту (500 SKU)	4–6 тижнів
Промислова система (10 000+ SKU)	8–14 тижнів
Інтеграція з SAP/1С + мобільний додаток	12–20 тижнів

У вартість робіт входять наступні етапи:

Збір та розмітка тренувального датасету (до 10 000 зображень на пілот)
Навчання та валідація моделі зі звітом за метриками
REST API для інтеграції
Документація та інструкція з експлуатації
Навчання співробітників (2 години онлайн)
Підтримка протягом 3 місяців після запуску

Наша команда має 5+ років досвіду в комп'ютерному зорі для ритейлу, реалізовано понад 30 проектів. За нашими оцінками, автоматизація скорочує час мерчандайзингу на 30% і знижує out-of-stock на 15%.

Початок роботи з системою

Оцінимо ваш проект безкоштовно. Зв'яжіться з нами, і ми підготуємо комерційну пропозицію з точними термінами та вартістю під ваш масштаб. Замовте пілот — і ви отримаєте робочу систему для 500 SKU за 4–6 тижнів. Гарантуємо конфіденційність даних.

Як distribution shift вбиває метрики CV-моделі в промисловості

На виробництві ставлять камеру, контролюють якість продукції. Модель навчена на 10 000 розмічених зображень — точність на тесті mAP 0.84. Запускають у продакшен — і в перший же тиждень пропускають 30% дефектів. Освітлення на лінії змінюється по змінах, distribution shift обнуляє метрики. Це класична історія з Computer Vision у промисловості, де розпізнавання образів дає збій без правильної обробки дрейфу.

Наші інженери з досвідом 60+ проектів з комп'ютерного зору знають, як виключити такі сценарії. Гарантуємо стабільну роботу моделі в реальних умовах.

Які архітектури детекції об'єктів обрати: YOLO, RT‑DETR чи інші?

YOLO — стандарт для real‑time детекції. YOLOv8 та YOLOv11 від Ultralytics — найбільш використовувані версії у виробництві: простий API, активна спільнота, вбудована валідація та експорт в ONNX/TensorRT. Для задач з високими вимогами до точності та коли latency менш критична — RT‑DETR, transformer‑based архітектура без NMS, дає кращий mAP на COCO при порівнянній швидкості з YOLOv8l.

Архітектура	mAP на COCO (val2017)	FPS (A10G, FP16)	Складність деплою
YOLOv8n	37.3	700+	Низька (ONNX/TensorRT)
YOLOv8m	50.2	250	Низька
RT‑DETR-L	53.0	140	Середня (вимагає PyTorch)
Mask R‑CNN	38.2 (bbox)	30	Висока

Типова помилка при навчанні детектора: датасет 8000 зображень, 3 класи, fine‑tune YOLOv8m — F1 0.73 на валідації. Дивимося confusion matrix — один клас майже ніколи не детектується. Причина: дисбаланс 1:23. Рішення: oversampling рідкісного класу, focal loss для objectness, аугментації (Mosaic, MixUp вимкнути для рідкісного класу — вони його «розмивають»). Transfer learning обов'язковий: передтреновані на COCO ваги скорочують потребу в даних у 10 разів. Fine‑tune на 500–2000 доменних зображеннях дає робочу модель за 1–2 дні на одній GPU.

Для edge deployment: експорт в ONNX → TensorRT engine. YOLOv8n в TensorRT FP16 на Jetson AGX Orin дає 150+ FPS при P99 latency < 8 ms — це в 3 рази швидше, ніж ONNX Runtime без TensorRT. На сервері A10G: 700+ FPS для YOLOv8n в TensorRT INT8.

Як fine‑tuning YOLO допомагає в розпізнаванні образів?

Припустимо, потрібно знаходити мікродефекти на поверхні металу — задача з високою роздільною здатністю та перекосом класів. Використовуємо YOLOv8m, передтренований на COCO (документація Ultralytics), і донавчаємо на 2000 власних зображень. Застосовуємо аугментації Mosaic, MixUp, random perspective. Після 200 епох mAP 0.5 досягає 0.93. Ключові прийоми:

focal loss для objectness голови — зменшує внесок легко класифікованих прикладів.
class‑balanced sampling — вирівнює представництво рідкісних класів.
Test Time Augmentation (TTA) — підвищує recall на 5–7% за рахунок усереднення по фліпах та масштабах.

Отримайте консультацію з підбору архітектури для вашого завдання — зв'яжіться з нами.

Які архітектури сегментації обрати: SAM, Mask R‑CNN чи інші?

SAM (Segment Anything Model) від Meta змінив підхід до сегментації. SAM 2 працює з відео, підтримує трекінг об'єктів через кадри — для інтерактивного виділення об'єкта по точці або bbox це найкращий вибір з коробки. Для production instance segmentation без інтерактивного промпту — Mask R‑CNN або YOLOv8‑seg. YOLOv8‑seg навчається як звичайний детектор з додатковими масками, зручний у тих же пайплайнах. Семантична сегментація (кожен піксель — клас) — SegFormer, DeepLabV3+. SegFormer‑B5 дає хороший баланс точності та швидкості для аналізу супутникових знімків або медичної сегментації.

Кейс: сегментація клітин на мікроскопічних зображеннях. Датасет 400 зображень з ручною розміткою. Навчання Mask R‑CNN на ResNet‑50 backbone дало IoU 0.61 — погано. Проблема: об'єкти (клітини) перекриваються, стандартний NMS вбиває перекриваючі передбачення. Рішення: перехід на cellpose (спеціалізована архітектура для біомедичних задач) + soft‑NMS. IoU зріс до 0.79.

Коли Tesseract не справляється з OCR?

Tesseract — відправна точка для простих задач: друкований текст, хороше освітлення, рівне розташування. Як тільки з'являються рукописні елементи, нестандартні шрифти, перспективні спотворення або багатоколоночний макет — Tesseract деградує швидко.

PaddleOCR — production‑grade рішення: виявлення текстових блоків + розпізнавання + структурний аналіз. Працює з коробки для 80+ мов, включаючи українську. Підтримує таблиці та документи зі складною структурою. Wikipedia: Оптичне розпізнавання символів. TrOCR (Microsoft) — трансформерний OCR з сильними результатами на рукописному тексті. Для українського рукописного тексту потрібен fine‑tuning: базова модель навчена переважно на латиниці.

Що робити, якщо Tesseract не справляється з розпізнаванням образів на документах?

Для задач «витягни дані з рахунку / договору / паспорта» використовуємо LayoutLMv3 або Donut — ці моделі розуміють layout документа, а не тільки текст. Інтеграція через Hugging Face Transformers, fine‑tuning на 200–500 розмічених документах. Типовий pipeline:

Preprocessing: deskew, denoising, binarization через OpenCV.
Виявлення текстових блоків: PaddleOCR detection або CRAFT.
Розпізнавання: PaddleOCR recognition або TrOCR.
Post‑processing: нормалізація, валідація через regex або LLM для структурованих полів.

Для документів з фіксованою структурою template matching + OCR точково по координатах часто надійніше за end‑to‑end рішення.

Face Recognition: ідентифікація та верифікація

Face recognition = detection + alignment + embedding + matching. Кожен етап важливий.

Detection: RetinaFace або InsightFace для точної локалізації обличчя та ключових точок. MTCNN — старіше, але надійне рішення. Embedding: ArcFace (InsightFace) — state‑of‑the‑art для face recognition embeddings. Моделі iresnet50/iresnet100 передтреновані на MS1MV3 (5M ідентичностей). Ембеддинг‑вектор 512 float32, порівняння за cosine similarity. Threshold tuning: поріг рішення — критичний параметр. При threshold 0.6 типовий FPR на LFW benchmark — 0.001, TPR — 0.985. У production threshold потрібно калібрувати під реальний distribution: люди в масках, зі зміненою зовнішністю, в різних умовах освітлення. Liveness detection обов'язковий: MiniFASNet — lightweight модель на CPU, FaceX‑Zoo містить кілька передтренованих liveness‑детекторів.

Відеоаналітика

Відео — послідовність кадрів плюс часовий вимір. Наївний підхід — детектувати на кожному кадрі — дорого.

Трекінг: ByteTrack та BoT‑SORT — стандарт для multi‑object tracking. Працюють поверх будь-якого детектора, додають persistent ID об'єктам між кадрами — це дає підрахунок об'єктів, трекі руху, velocity.

Оптимізація: не потрібно обробляти кожен кадр. Для статичних сцен детекція на кожному 5–10 кадрі, між ними — трекер. Для детекції подій (людина увійшла в зону) background subtraction (OpenCV MOG2) як lightweight pre‑filter перед нейромережевою детекцією. Action Recognition: SlowFast, VideoMAE для класифікації дій. Важкі моделі — для production використовуємо ONNX export + TensorRT або офлайн обробку.

Як виміряти якість моделі розпізнавання образів у продакшені?

Моніторинг якості — ключовий елемент MLOps. Відстежуємо:

розподіл prediction confidence;
частку low‑confidence передбачень (індикатор OOD‑даних);
дрейф вхідних зображень через feature distribution (embeddings з backbone).

Падіння середньої confidence з 0.87 до 0.71 за тиждень — ранній сигнал про distribution shift. NVIDIA Triton Inference Server рекомендує відстежувати ці метрики через Prometheus. Наші сертифіковані інженери налаштовують моніторинг і гарантують SLA по якості інференсу.

Деплой CV‑моделей

Для онлайн інференсу використовуємо Triton Inference Server (NVIDIA) — production‑стандарт для serving CV‑моделей. Підтримує TensorRT, ONNX, PyTorch, dynamic batching, multiple instances. REST та gRPC API. Гарантуємо стабільну роботу під навантаженням.

Edge deployment: ONNX Runtime на ARM/x86 CPU. TensorFlow Lite для мобільних пристроїв. OpenVINO для Intel CPU/GPU/VPU — дає 2–3× приріст швидкості на Intel залізі порівняно з ONNX Runtime. Після деплою передаємо модель з документацією та навчаємо персонал.

Що входить в роботу

Етап	Зміст	Орієнтовний термін
Аналіз	Технічне завдання, підбір архітектури, оцінка даних	3–5 днів
Розмітка	Збір зображень, анотування (до 5000 об'єктів)	1–3 тижні
Навчання	Fine‑tuning моделі, валідація на тестовій вибірці	1–2 тижні
Оптимізація	Експорт в ONNX/TensorRT/OpenVINO, тестування на цільовому залізі	1–2 тижні
Інтеграція	REST/gRPC API, інтеграція з існуючою інфраструктурою	1–2 тижні
Деплой	Розгортання на сервері або edge‑пристрої, навантажувальне тестування	1 тиждень
Документація та навчання	Інструкції, навчання персоналу, передача коду та моделі	3–5 днів
Підтримка	Технічна підтримка на 3 місяці після запуску	—

Терміни та вартість

Прототип детектора на існуючих даних — 1–2 тижні. Production‑система з оптимізацією під цільове залізо — 4–8 тижнів. Повний цикл включаючи розмітку даних (1000–5000 зображень) — 2–4 місяці. Вартість розраховується індивідуально під кожну задачу. Ми на ринку більше 5 років, реалізували 60+ проектів з комп'ютерного зору. Оцінимо ваш проект під ключ — замовте консультацію, щоб отримати розрахунок та технічну пропозицію.