У чому відмінність density map від звичайної детекції?

Детекція виділяє кожен об'єкт боксом, що при щільних скупченнях призводить до пропусків та хибних спрацьовувань. Density map передбачає карту щільності, де кожен піксель — кількість об'єктів у цій області. Інтеграл по карті дає загальну кількість, що точніше для сотень і тисяч об'єктів.

Які метрики використовуються для оцінки якості підрахунку?

Основні метрики: MAE (середня абсолютна помилка) та RMSE (корінь із середньоквадратичної помилки). Для систем із трекінгом — accuracy та false count rate. Для детекції — mAP. На щільних скупченнях MAE може бути в межах 5–70 залежно від сцени.

Скільки часу займає впровадження системи підрахунку?

Термін залежить від складності: готову детекцію під стандартні класи — 1–2 тижні, кастомну модель density map — 3–5 тижнів, комплексну відеоаналітику з трекінгом — 4–7 тижнів. Точніше оцінюємо після аналізу ваших даних.

Яке обладнання потрібне для роботи системи?

Для легких моделей детекції достатньо CPU, але для density map та відео в реальному часі потрібен GPU (NVIDIA T4 або вище). Серверна частина може працювати на хмарних інстансах. Ми підбираємо конфіг під ваше навантаження.

Чи можна навчити модель на власних даних?

Так, ми проводимо навчання на ваших зображеннях. Для density map потрібна розмітка крапками (dot annotations). Для детекції — bounding boxes. Ми допомагаємо з розміткою або приймаємо готову. Дообучення займає від 2 днів до тижня.

У чому відмінність density map від звичайної детекції?

Детекція виділяє кожен об'єкт боксом, що при щільних скупченнях призводить до пропусків та хибних спрацьовувань. Density map передбачає карту щільності, де кожен піксель — кількість об'єктів у цій області. Інтеграл по карті дає загальну кількість, що точніше для сотень і тисяч об'єктів.

Які метрики використовуються для оцінки якості підрахунку?

Основні метрики: MAE (середня абсолютна помилка) та RMSE (корінь із середньоквадратичної помилки). Для систем із трекінгом — accuracy та false count rate. Для детекції — mAP. На щільних скупченнях MAE може бути в межах 5–70 залежно від сцени.

Скільки часу займає впровадження системи підрахунку?

Термін залежить від складності: готову детекцію під стандартні класи — 1–2 тижні, кастомну модель density map — 3–5 тижнів, комплексну відеоаналітику з трекінгом — 4–7 тижнів. Точніше оцінюємо після аналізу ваших даних.

Яке обладнання потрібне для роботи системи?

Для легких моделей детекції достатньо CPU, але для density map та відео в реальному часі потрібен GPU (NVIDIA T4 або вище). Серверна частина може працювати на хмарних інстансах. Ми підбираємо конфіг під ваше навантаження.

Чи можна навчити модель на власних даних?

Так, ми проводимо навчання на ваших зображеннях. Для density map потрібна розмітка крапками (dot annotations). Для детекції — bounding boxes. Ми допомагаємо з розміткою або приймаємо готову. Дообучення займає від 2 днів до тижня.

Розробка системи підрахунку об'єктів у кадрі (Object Counting)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Розробка системи підрахунку об'єктів у кадрі (Object Counting)

Середній

від 1 тижня до 3 місяців

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1349
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Розробка системи підрахунку об'єктів у кадрі (Object Counting)

Підрахунок об'єктів на зображенні або відео — задача з нюансами. Простий підхід «детектуй і порахуй бокси» працює лише при малій кількості об'єктів і хорошій видимості кожного. При щільних скупченнях (натовп, урожай на полі, клітини під мікроскопом, автомобілі на парковці) детектори втрачають продуктивність: bounding boxes накладаються, NMS відсікає правильні, а latency зростає через велику кількість об'єктів. Для таких випадків ми застосовуємо спеціалізовані підходи: density maps та crowd counting моделі. За час роботи ми реалізували 30+ проектів у рітейлі, транспорті та біомедицині — точність підрахунку досягає 95% навіть на щільних сценах.

Як ми вирішуємо проблему щільних скупчень?

Для задач із сотнями та тисячами об'єктів у кадрі — підрахунок людей у натовпі, зерен на полі, клітин під мікроскопом — ми використовуємо density map. Це зображення, де кожен піксель містить «щільність» об'єктів в околиці. Інтеграл по density map = кількість об'єктів. Досвід показує: на щільних скупченнях density map дає MAE на 30–50% нижчу, ніж детекція. Наприклад, на Shanghai Tech Part A (щільний натовп) CSRNet показує MAE 68.2 проти ~110 у YOLO при прямій оцінці кількості. Density map — це не просто регресія, а метод, стійкий до occlusion та scale variations. Згідно з Li et al. (2018), ця архітектура залишається еталоном для crowd counting.

Ось приклад архітектури CSRNet, яку ми адаптуємо під ваш домен:

import torch
import torch.nn as nn
from torchvision.models import vgg16

class CSRNet(nn.Module):
    """Crowd Scene Recognition Network для підрахунку людей"""
    def __init__(self):
        super().__init__()
        vgg = vgg16(pretrained=True)
        self.frontend = nn.Sequential(*list(vgg.features.children())[:23])
        self.backend = nn.Sequential(
            nn.Conv2d(512, 512, 3, padding=2, dilation=2),
            nn.ReLU(inplace=True),
            nn.Conv2d(512, 256, 3, padding=2, dilation=2),
            nn.ReLU(inplace=True),
            nn.Conv2d(256, 128, 3, padding=2, dilation=2),
            nn.ReLU(inplace=True),
            nn.Conv2d(128, 64, 3, padding=2, dilation=2),
            nn.ReLU(inplace=True),
            nn.Conv2d(64, 1, 1)
        )

    def forward(self, x):
        x = self.frontend(x)
        density_map = self.backend(x)
        count = density_map.sum()
        return density_map, count

Детекція + підрахунок для розріджених сцен

Зазначимо: коли об'єктів менше 50 і вони не перекриваються сильно — використовуємо YOLOv8/YOLO11. Лічильник простий:

from ultralytics import YOLO

model = YOLO('yolov8m.pt')

def count_objects(image_path: str, target_class: str) -> int:
    results = model(image_path, conf=0.4, iou=0.5)
    class_names = model.names
    target_id = [k for k, v in class_names.items() if v == target_class][0]

    count = 0
    for result in results:
        for cls in result.boxes.cls:
            if cls.item() == target_id:
                count += 1
    return count

Розмітка для навчання: точкові анотації (dot annotations) — по одній точці на кожен об'єкт. З точок генеруємо density map через Gaussian kernel. Це дешевше за бокси і точніше для щільних сцен.

Counting через лінію (Line Crossing) для відео

Для підрахунку транспорту або людей, що проходять — трекінг + віртуальна лінія:

class LineCrossingCounter:
    def __init__(self, line_start, line_end):
        self.line = (line_start, line_end)
        self.counted_ids = set()
        self.count = 0
        self.prev_positions = {}

    def update(self, track_id, center_x, center_y):
        if track_id in self.prev_positions:
            prev_pos = self.prev_positions[track_id]
            if self._crosses_line(prev_pos, (center_x, center_y)):
                if track_id not in self.counted_ids:
                    self.count += 1
                    self.counted_ids.add(track_id)
        self.prev_positions[track_id] = (center_x, center_y)

    def _crosses_line(self, p1, p2):
        # перевірка перетину відрізка з лінією
        pass

Чому density map ефективніша за детекцію на натовпах?

Детектор намагається знайти кожен об'єкт окремо — при перекриттях bounding boxes накладаються, і NMS відсікає «хороші» бокси. Density map регресує щільність без сегментації кожного об'єкта, що стійкіше до occlusion. На Shanghai Tech Part A (щільний натовп) CSRNet показує MAE 68.2 проти ~110 у YOLO при прямій оцінці кількості.

Як підготувати дані для навчання density map: 3 кроки

Збір даних — наберіть не менше 1000 зображень вашого сценарію (натовп, транспорт, клітини). Важливо: дані мають покривати всі можливі щільності та освітлення.
Розмітка — кожен об'єкт відмічається однією точкою (dot annotation). Для щільних натовпів використовуйте інструменти типу LabelMe або CVAT.
Генерація density map — розмиття точок гаусовим ядром з sigma, що залежить від розміру об'єкта. Ми автоматизуємо цей крок скриптом.

Кейс: підрахунок відвідувачів торговельного центру

Одного разу до нас звернулася мережа ТЦ із задачею: підрахувати кількість людей у кожному залі протягом дня, щоб оптимізувати роботу касирів та охорони. Встановлені камери давали потік 30 FPS, але через перекриття та тіні детектор YOLOv8 давав MAE ~25 на типовий кадр. Ми навчили CSRNet на щільних сценах — після донавчання на 2000 кадрах з dot annotations MAE знизився до 8. Систему розгорнули на NVIDIA T4, latency p99 склав 45 мс — відео оброблялося в реальному часі. За рік експлуатації точність підрахунку не падала нижче 93%, а економія на персоналі склала 1.2 млн грн на рік. На іншому проекті — підрахунок відвідувачів у парку — ми знизили помилку на 40%, що дозволило зекономити 2.3 млн грн за рік.

Застосування та метрики

Застосування	Підхід	Метрика
Підрахунок транспорту на дорозі	Трекінг + лінія	Accuracy, false count rate
Підрахунок людей у натовпі	Density map (CSRNet)	MAE, RMSE
Підрахунок клітин під мікроскопом	Density map	MAE
Підрахунок фруктів на плантації	YOLO + counting	mAP, MAE
Інвентаризація товарів на полиці	YOLO + counting	Accuracy

Типові метрики CSRNet на Shanghai Tech:

Part A (щільні натовпи): MAE 68.2, RMSE 115.0
Part B (розріджені): MAE 10.6, RMSE 16.0

Що входить у роботу під ключ

Аудит задачі та даних: визначаємо, який підхід дасть максимальну точність під ваш бюджет.
Розробка та навчання моделі: від прототипу до production-ready інференсу з квантуванням (INT8) для прискорення.
Інтеграція у вашу інфраструктуру: API, відеострім, база даних.
Оптимізація продуктивності: latency p99 < 50 мс на GPU для реального часу.
Документація та навчання вашої команди.
Гарантія на точність моделі: фіксуємо MAE в специфікації.

Орієнтовні терміни

Задача	Термін
Підрахунок через детекцію, готова модель	1–2 тижні
Density map, кастомний домен	3–5 тижнів
Комплексна система (відео + аналітика)	4–7 тижнів

Точну оцінку даємо після аналізу ваших даних. Отримайте консультацію — обговоримо вашу задачу і підберемо оптимальне рішення. Зв'яжіться з нами, щоб почати проект.

Як distribution shift вбиває метрики CV-моделі в промисловості

На виробництві ставлять камеру, контролюють якість продукції. Модель навчена на 10 000 розмічених зображень — точність на тесті mAP 0.84. Запускають у продакшен — і в перший же тиждень пропускають 30% дефектів. Освітлення на лінії змінюється по змінах, distribution shift обнуляє метрики. Це класична історія з Computer Vision у промисловості, де розпізнавання образів дає збій без правильної обробки дрейфу.

Наші інженери з досвідом 60+ проектів з комп'ютерного зору знають, як виключити такі сценарії. Гарантуємо стабільну роботу моделі в реальних умовах.

Які архітектури детекції об'єктів обрати: YOLO, RT‑DETR чи інші?

YOLO — стандарт для real‑time детекції. YOLOv8 та YOLOv11 від Ultralytics — найбільш використовувані версії у виробництві: простий API, активна спільнота, вбудована валідація та експорт в ONNX/TensorRT. Для задач з високими вимогами до точності та коли latency менш критична — RT‑DETR, transformer‑based архітектура без NMS, дає кращий mAP на COCO при порівнянній швидкості з YOLOv8l.

Архітектура	mAP на COCO (val2017)	FPS (A10G, FP16)	Складність деплою
YOLOv8n	37.3	700+	Низька (ONNX/TensorRT)
YOLOv8m	50.2	250	Низька
RT‑DETR-L	53.0	140	Середня (вимагає PyTorch)
Mask R‑CNN	38.2 (bbox)	30	Висока

Типова помилка при навчанні детектора: датасет 8000 зображень, 3 класи, fine‑tune YOLOv8m — F1 0.73 на валідації. Дивимося confusion matrix — один клас майже ніколи не детектується. Причина: дисбаланс 1:23. Рішення: oversampling рідкісного класу, focal loss для objectness, аугментації (Mosaic, MixUp вимкнути для рідкісного класу — вони його «розмивають»). Transfer learning обов'язковий: передтреновані на COCO ваги скорочують потребу в даних у 10 разів. Fine‑tune на 500–2000 доменних зображеннях дає робочу модель за 1–2 дні на одній GPU.

Для edge deployment: експорт в ONNX → TensorRT engine. YOLOv8n в TensorRT FP16 на Jetson AGX Orin дає 150+ FPS при P99 latency < 8 ms — це в 3 рази швидше, ніж ONNX Runtime без TensorRT. На сервері A10G: 700+ FPS для YOLOv8n в TensorRT INT8.

Як fine‑tuning YOLO допомагає в розпізнаванні образів?

Припустимо, потрібно знаходити мікродефекти на поверхні металу — задача з високою роздільною здатністю та перекосом класів. Використовуємо YOLOv8m, передтренований на COCO (документація Ultralytics), і донавчаємо на 2000 власних зображень. Застосовуємо аугментації Mosaic, MixUp, random perspective. Після 200 епох mAP 0.5 досягає 0.93. Ключові прийоми:

focal loss для objectness голови — зменшує внесок легко класифікованих прикладів.
class‑balanced sampling — вирівнює представництво рідкісних класів.
Test Time Augmentation (TTA) — підвищує recall на 5–7% за рахунок усереднення по фліпах та масштабах.

Отримайте консультацію з підбору архітектури для вашого завдання — зв'яжіться з нами.

Які архітектури сегментації обрати: SAM, Mask R‑CNN чи інші?

SAM (Segment Anything Model) від Meta змінив підхід до сегментації. SAM 2 працює з відео, підтримує трекінг об'єктів через кадри — для інтерактивного виділення об'єкта по точці або bbox це найкращий вибір з коробки. Для production instance segmentation без інтерактивного промпту — Mask R‑CNN або YOLOv8‑seg. YOLOv8‑seg навчається як звичайний детектор з додатковими масками, зручний у тих же пайплайнах. Семантична сегментація (кожен піксель — клас) — SegFormer, DeepLabV3+. SegFormer‑B5 дає хороший баланс точності та швидкості для аналізу супутникових знімків або медичної сегментації.

Кейс: сегментація клітин на мікроскопічних зображеннях. Датасет 400 зображень з ручною розміткою. Навчання Mask R‑CNN на ResNet‑50 backbone дало IoU 0.61 — погано. Проблема: об'єкти (клітини) перекриваються, стандартний NMS вбиває перекриваючі передбачення. Рішення: перехід на cellpose (спеціалізована архітектура для біомедичних задач) + soft‑NMS. IoU зріс до 0.79.

Коли Tesseract не справляється з OCR?

Tesseract — відправна точка для простих задач: друкований текст, хороше освітлення, рівне розташування. Як тільки з'являються рукописні елементи, нестандартні шрифти, перспективні спотворення або багатоколоночний макет — Tesseract деградує швидко.

PaddleOCR — production‑grade рішення: виявлення текстових блоків + розпізнавання + структурний аналіз. Працює з коробки для 80+ мов, включаючи українську. Підтримує таблиці та документи зі складною структурою. Wikipedia: Оптичне розпізнавання символів. TrOCR (Microsoft) — трансформерний OCR з сильними результатами на рукописному тексті. Для українського рукописного тексту потрібен fine‑tuning: базова модель навчена переважно на латиниці.

Що робити, якщо Tesseract не справляється з розпізнаванням образів на документах?

Для задач «витягни дані з рахунку / договору / паспорта» використовуємо LayoutLMv3 або Donut — ці моделі розуміють layout документа, а не тільки текст. Інтеграція через Hugging Face Transformers, fine‑tuning на 200–500 розмічених документах. Типовий pipeline:

Preprocessing: deskew, denoising, binarization через OpenCV.
Виявлення текстових блоків: PaddleOCR detection або CRAFT.
Розпізнавання: PaddleOCR recognition або TrOCR.
Post‑processing: нормалізація, валідація через regex або LLM для структурованих полів.

Для документів з фіксованою структурою template matching + OCR точково по координатах часто надійніше за end‑to‑end рішення.

Face Recognition: ідентифікація та верифікація

Face recognition = detection + alignment + embedding + matching. Кожен етап важливий.

Detection: RetinaFace або InsightFace для точної локалізації обличчя та ключових точок. MTCNN — старіше, але надійне рішення. Embedding: ArcFace (InsightFace) — state‑of‑the‑art для face recognition embeddings. Моделі iresnet50/iresnet100 передтреновані на MS1MV3 (5M ідентичностей). Ембеддинг‑вектор 512 float32, порівняння за cosine similarity. Threshold tuning: поріг рішення — критичний параметр. При threshold 0.6 типовий FPR на LFW benchmark — 0.001, TPR — 0.985. У production threshold потрібно калібрувати під реальний distribution: люди в масках, зі зміненою зовнішністю, в різних умовах освітлення. Liveness detection обов'язковий: MiniFASNet — lightweight модель на CPU, FaceX‑Zoo містить кілька передтренованих liveness‑детекторів.

Відеоаналітика

Відео — послідовність кадрів плюс часовий вимір. Наївний підхід — детектувати на кожному кадрі — дорого.

Трекінг: ByteTrack та BoT‑SORT — стандарт для multi‑object tracking. Працюють поверх будь-якого детектора, додають persistent ID об'єктам між кадрами — це дає підрахунок об'єктів, трекі руху, velocity.

Оптимізація: не потрібно обробляти кожен кадр. Для статичних сцен детекція на кожному 5–10 кадрі, між ними — трекер. Для детекції подій (людина увійшла в зону) background subtraction (OpenCV MOG2) як lightweight pre‑filter перед нейромережевою детекцією. Action Recognition: SlowFast, VideoMAE для класифікації дій. Важкі моделі — для production використовуємо ONNX export + TensorRT або офлайн обробку.

Як виміряти якість моделі розпізнавання образів у продакшені?

Моніторинг якості — ключовий елемент MLOps. Відстежуємо:

розподіл prediction confidence;
частку low‑confidence передбачень (індикатор OOD‑даних);
дрейф вхідних зображень через feature distribution (embeddings з backbone).

Падіння середньої confidence з 0.87 до 0.71 за тиждень — ранній сигнал про distribution shift. NVIDIA Triton Inference Server рекомендує відстежувати ці метрики через Prometheus. Наші сертифіковані інженери налаштовують моніторинг і гарантують SLA по якості інференсу.

Деплой CV‑моделей

Для онлайн інференсу використовуємо Triton Inference Server (NVIDIA) — production‑стандарт для serving CV‑моделей. Підтримує TensorRT, ONNX, PyTorch, dynamic batching, multiple instances. REST та gRPC API. Гарантуємо стабільну роботу під навантаженням.

Edge deployment: ONNX Runtime на ARM/x86 CPU. TensorFlow Lite для мобільних пристроїв. OpenVINO для Intel CPU/GPU/VPU — дає 2–3× приріст швидкості на Intel залізі порівняно з ONNX Runtime. Після деплою передаємо модель з документацією та навчаємо персонал.

Що входить в роботу

Етап	Зміст	Орієнтовний термін
Аналіз	Технічне завдання, підбір архітектури, оцінка даних	3–5 днів
Розмітка	Збір зображень, анотування (до 5000 об'єктів)	1–3 тижні
Навчання	Fine‑tuning моделі, валідація на тестовій вибірці	1–2 тижні
Оптимізація	Експорт в ONNX/TensorRT/OpenVINO, тестування на цільовому залізі	1–2 тижні
Інтеграція	REST/gRPC API, інтеграція з існуючою інфраструктурою	1–2 тижні
Деплой	Розгортання на сервері або edge‑пристрої, навантажувальне тестування	1 тиждень
Документація та навчання	Інструкції, навчання персоналу, передача коду та моделі	3–5 днів
Підтримка	Технічна підтримка на 3 місяці після запуску	—

Терміни та вартість

Прототип детектора на існуючих даних — 1–2 тижні. Production‑система з оптимізацією під цільове залізо — 4–8 тижнів. Повний цикл включаючи розмітку даних (1000–5000 зображень) — 2–4 місяці. Вартість розраховується індивідуально під кожну задачу. Ми на ринку більше 5 років, реалізували 60+ проектів з комп'ютерного зору. Оцінимо ваш проект під ключ — замовте консультацію, щоб отримати розрахунок та технічну пропозицію.