Які моделі використовуються для детекції людей?

В основі лежить YOLOv8 — ми підбираємо конфігурацію (nano, medium або large) під завдання: для edge-пристроїв nano, для серверів — medium або large. Додатково використовуємо BYTETrack для присвоєння унікальних ID кожній людині.

Як забезпечується низька затримка на 50+ камерах?

Ми застосовуємо багатопотокове декодування, TensorRT для інференсу та чергу фреймів із пропуском, якщо система не встигає. На одній RTX 4090 стабільно обробляємо 16 камер 1080p з латентністю до 100 мс.

Чи можна інтегрувати систему з існуючою VMS?

Так, ми розробляємо модулі інтеграції з Milestone XProtect, Genetec Security Center, TRASSIR та іншими. Підтримуємо ONVIF, RTSP та власні SDK — це стандартна частина проєкту.

Скільки займає розгортання на 10 камер?

Перший пілот із базовими сценаріями (підрахунок, перетин ліній) займає від 3 до 5 тижнів. Якщо потрібна інтеграція з VMS та дашборди — термін збільшується до 8–12 тижнів залежно від складності.

Які гарантії даєте на точність детекції?

Ми налаштовуємо модель на ваших даних (fine‑tuning) і досягаємо mAP >0.85 на внутрішньому тестовому наборі. У контракті фіксуємо цільові метрики — recall, precision, F1‑score, а також p99 латентність.

Які моделі використовуються для детекції людей?

В основі лежить YOLOv8 — ми підбираємо конфігурацію (nano, medium або large) під завдання: для edge-пристроїв nano, для серверів — medium або large. Додатково використовуємо BYTETrack для присвоєння унікальних ID кожній людині.

Як забезпечується низька затримка на 50+ камерах?

Ми застосовуємо багатопотокове декодування, TensorRT для інференсу та чергу фреймів із пропуском, якщо система не встигає. На одній RTX 4090 стабільно обробляємо 16 камер 1080p з латентністю до 100 мс.

Чи можна інтегрувати систему з існуючою VMS?

Так, ми розробляємо модулі інтеграції з Milestone XProtect, Genetec Security Center, TRASSIR та іншими. Підтримуємо ONVIF, RTSP та власні SDK — це стандартна частина проєкту.

Скільки займає розгортання на 10 камер?

Перший пілот із базовими сценаріями (підрахунок, перетин ліній) займає від 3 до 5 тижнів. Якщо потрібна інтеграція з VMS та дашборди — термін збільшується до 8–12 тижнів залежно від складності.

Які гарантії даєте на точність детекції?

Ми налаштовуємо модель на ваших даних (fine‑tuning) і досягаємо mAP >0.85 на внутрішньому тестовому наборі. У контракті фіксуємо цільові метрики — recall, precision, F1‑score, а також p99 латентність.

Розробка AI-системи відеоспостереження з аналітикою під ключ

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Розробка AI-системи відеоспостереження з аналітикою під ключ

Складний

~2-4 тижні

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1361
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1189
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Уявіть: 64 камери на об'єкті — і жодного погляду на монітор. Охоронець фізично не може встежити за всіма потоками. Відеоаналітика на основі ШІ перетворює пасивний запис на активний моніторинг. Ми розробляємо такі системи під ключ: від детекції вторгнень до аналізу аномальної поведінки. Наші інженери мають сертифікати NVIDIA та багаторічний досвід у Computer Vision. Оцінюємо задачу за 2 робочі дні, терміни базової системи — від 4 тижнів. Середній термін окупності системи — 12–18 місяців. Для об'єкта з 64 камерами економія на охороні сягає 1,2 млн ₴ на рік. Замовте аудит об'єкта — ми підберемо оптимальне рішення. Отримайте консультацію вже зараз.

Чому AI-відеоаналітика вигідніша за традиційне спостереження?

Класичний CCTV коштує грошей, але нічого не робить. 64 камери — це 64 монітори, на які ніхто не дивиться 96% часу. AI-аналітика переводить систему з пасивного запису в активний моніторинг: камера сама повідомляє, коли щось пішло не так. Це скорочує витрати на охорону до 40%, прискорюючи реакцію на інциденти до кількох секунд.

Ключові модулі AI-відеоаналітики

Детекція вторгнень і перетину периметру

Базовий модуль будь-якої системи відеоаналітики. Технічно — детекція людей (YOLOv8, RT-DETR) + перетин віртуальної лінії або зони. Складність не в детекції як такій, а в мінімізації хибних тривог. Типові причини хибних спрацювань: тварини, тіні, засвітка фар, дощ. Рішення: класифікатор людина vs не-людина з порогом confidence 0.75+, temporal filtering (об'єкт має бути присутнім мінімум N кадрів поспіль), ROI-маски для виключення шумних зон. На відкаліброваній системі false alarm rate < 0.3/камера/год. Гарантуємо стабільність — SLA 99.9%. Докладніше про YOLO на Wikipedia.

Як працює multi-camera tracking у реальних проєктах?

На великому об'єкті (торговий центр, завод, аеропорт) цікавіше не «що людина робить на одній камері», а «куди вона йде по всьому об'єкту». Multi-Camera Multi-Object Tracking (MCMOT) — одне з активно досліджуваних завдань CV.

Два підходи:

Appearance-based re-id: вилучення appearance descriptor з кожної камери (BoT-BOT, OSNet, SBS-R101 з Fast-ReID), матчинг по cosine similarity. Працює добре при непересічних полях зору.
Topology-aware matching: використання топології переходів між камерами (знаємо, що із зони А людина може потрапити в зону В за 30–120 секунд). Знижує false match на схожих людях.

Кейс: складський комплекс 45 000 м², 128 IP-камер Axis. Завдання — моніторинг дотримання маршрутів персоналу в зонах обмеженого доступу. DeepSORT → FastReID pipeline, обробка на 4× NVIDIA RTX 4090 сервері. Час наскрізного трекінгу однієї людини через 15 камер: < 800 ms затримки від реального часу. NVIDIA Jetson AGX Orin справляється з 8–16 HD-потоками на борту, що в 3 рази ефективніше за серверні рішення для edge-обробки.

Глибокий розбір: детекція аномальної поведінки

Це найбільш технічно складний і цінний модуль. Детектувати людину вміє будь-який YOLOv8. Зрозуміти, що вона робить щось підозріле — принципово інше завдання.

Що розуміється під аномалією

Аномальна поведінка — статистично рідкісна або контекстно неочікувана дія: людина впала, кинула предмет, залишила багаж, агресивний рух, скупчення людей, рух у нетиповому напрямку.

Підходи до виявлення

Метод	Принцип	Коли застосовний	False positive rate
Action recognition (SlowFast, Video Swin)	Класифікація дій за кліпами 2–4 сек	Чітко визначені події	Низький на навчених діях
Anomaly detection (Conv-AE, PatchCore)	Помилка реконструкції на «нормальних» сценах	Нетипові ситуації без розмітки	Високий у динамічних сценах
Trajectory analysis (KDE)	Щільність треків у просторі-часі	Скупчення, падіння	Середній

На практиці комбінуємо: rule-based детекція для добре визначених подій (перетин лінії, зона заборони) + anomaly detection для нетипових ситуацій.

Архітектура AI-системи відеоспостереження

Edge-компонент: обробка відеопотоків близько до камер знижує навантаження на мережу. NVIDIA Jetson AGX Orin обробляє 8–16 HD-потоків із детекцією та трекінгом. NVIDIA DeepStream і TensorRT — стандартний стек.

Серверний компонент: зберігання відеоархіву, аналітика за подіями, управління. VMS (Video Management System): Milestone XProtect, Genetec Security Center, або open source — Frigate NVR. Зберігання — об'єктне сховище (MinIO або S3), лише аналітично значущі кліпи, не весь потік.

Інструменти: NVIDIA DeepStream, OpenCV, ByteTrack, Fast-ReID, MLflow для версіонування моделей.

Компонент	Рекомендоване рішення	Альтернатива
Детекція людей	YOLOv8m TensorRT	RT-DETR
Трекінг	ByteTrack	BoT-SORT
Re-ID	OSNet (Fast-ReID)	SBS-R50
VMS	Milestone XProtect	Frigate NVR
Edge-платформа	Jetson AGX Orin	Intel NUC + iGPU

Докладніше про технічні характеристики

Система підтримує до 128 камер на один сервер, latency p99 не перевищує 500 ms для детекції та трекінгу. Використовуємо INT8 quantization для TensorRT, що підвищує пропускну здатність на 30% без втрати точності. Для edge-розгортання застосовуємо Jetson AGX Orin з 275 TOPS.

Як ми впроваджуємо AI-відеоаналітику: покроковий процес

Аудит об'єкта: обстеження території, зйомка планів, збір вимог. Визначаємо кількість камер, зони інтересу, інтеграційні точки.
Проектування: вибір архітектури (edge/cloud/hybrid), підбір моделей детекції та трекінгу, налаштування конфігурації DeepStream.
Розробка та калібрування: збір даних з об'єкта, розмітка (YOLO-формат), fine-tuning моделей, налаштування ROI-масок та temporal filtering.
Інтеграція: підключення до VMS, налаштування алертів, розробка користувацького інтерфейсу (дашборд подій).
Тестування: пробний запуск на реальних потоках, вимірювання false alarm rate, коригування порогів.
Деплой та навчання: розгортання на обладнанні, навчання операторів, передача документації.
Гарантійна підтримка: 6 місяців моніторингу, SLA 99.9%, при необхідності — донавчання моделей.

Що входить в роботу

Архітектурний опис та специфікація моделей
Документація з інтеграції та API
Навчання операторів системи
Тестовий період із калібруванням під об'єкт
Гарантійна підтримка 6 місяців та SLA 99.9%

Терміни

Базова система детекції вторгнень для 1 об'єкта: 4–6 тижнів. Повна відеоаналітика з трекінгом, поведінковим аналізом та VMS-інтеграцією: 3–5 місяців. Вартість розраховується індивідуально на основі обсягу робіт.

Ми виконали понад 10 проєктів у рітейлі та промисловості. Хочете оцінити своє завдання? Отримайте консультацію — підготуємо оцінку за 2 робочі дні. Замовте аудит об'єкта, і ми запропонуємо оптимальне рішення.

Як distribution shift вбиває метрики CV-моделі в промисловості

На виробництві ставлять камеру, контролюють якість продукції. Модель навчена на 10 000 розмічених зображень — точність на тесті mAP 0.84. Запускають у продакшен — і в перший же тиждень пропускають 30% дефектів. Освітлення на лінії змінюється по змінах, distribution shift обнуляє метрики. Це класична історія з Computer Vision у промисловості, де розпізнавання образів дає збій без правильної обробки дрейфу.

Наші інженери з досвідом 60+ проектів з комп'ютерного зору знають, як виключити такі сценарії. Гарантуємо стабільну роботу моделі в реальних умовах.

Які архітектури детекції об'єктів обрати: YOLO, RT‑DETR чи інші?

YOLO — стандарт для real‑time детекції. YOLOv8 та YOLOv11 від Ultralytics — найбільш використовувані версії у виробництві: простий API, активна спільнота, вбудована валідація та експорт в ONNX/TensorRT. Для задач з високими вимогами до точності та коли latency менш критична — RT‑DETR, transformer‑based архітектура без NMS, дає кращий mAP на COCO при порівнянній швидкості з YOLOv8l.

Архітектура	mAP на COCO (val2017)	FPS (A10G, FP16)	Складність деплою
YOLOv8n	37.3	700+	Низька (ONNX/TensorRT)
YOLOv8m	50.2	250	Низька
RT‑DETR-L	53.0	140	Середня (вимагає PyTorch)
Mask R‑CNN	38.2 (bbox)	30	Висока

Типова помилка при навчанні детектора: датасет 8000 зображень, 3 класи, fine‑tune YOLOv8m — F1 0.73 на валідації. Дивимося confusion matrix — один клас майже ніколи не детектується. Причина: дисбаланс 1:23. Рішення: oversampling рідкісного класу, focal loss для objectness, аугментації (Mosaic, MixUp вимкнути для рідкісного класу — вони його «розмивають»). Transfer learning обов'язковий: передтреновані на COCO ваги скорочують потребу в даних у 10 разів. Fine‑tune на 500–2000 доменних зображеннях дає робочу модель за 1–2 дні на одній GPU.

Для edge deployment: експорт в ONNX → TensorRT engine. YOLOv8n в TensorRT FP16 на Jetson AGX Orin дає 150+ FPS при P99 latency < 8 ms — це в 3 рази швидше, ніж ONNX Runtime без TensorRT. На сервері A10G: 700+ FPS для YOLOv8n в TensorRT INT8.

Як fine‑tuning YOLO допомагає в розпізнаванні образів?

Припустимо, потрібно знаходити мікродефекти на поверхні металу — задача з високою роздільною здатністю та перекосом класів. Використовуємо YOLOv8m, передтренований на COCO (документація Ultralytics), і донавчаємо на 2000 власних зображень. Застосовуємо аугментації Mosaic, MixUp, random perspective. Після 200 епох mAP 0.5 досягає 0.93. Ключові прийоми:

focal loss для objectness голови — зменшує внесок легко класифікованих прикладів.
class‑balanced sampling — вирівнює представництво рідкісних класів.
Test Time Augmentation (TTA) — підвищує recall на 5–7% за рахунок усереднення по фліпах та масштабах.

Отримайте консультацію з підбору архітектури для вашого завдання — зв'яжіться з нами.

Які архітектури сегментації обрати: SAM, Mask R‑CNN чи інші?

SAM (Segment Anything Model) від Meta змінив підхід до сегментації. SAM 2 працює з відео, підтримує трекінг об'єктів через кадри — для інтерактивного виділення об'єкта по точці або bbox це найкращий вибір з коробки. Для production instance segmentation без інтерактивного промпту — Mask R‑CNN або YOLOv8‑seg. YOLOv8‑seg навчається як звичайний детектор з додатковими масками, зручний у тих же пайплайнах. Семантична сегментація (кожен піксель — клас) — SegFormer, DeepLabV3+. SegFormer‑B5 дає хороший баланс точності та швидкості для аналізу супутникових знімків або медичної сегментації.

Кейс: сегментація клітин на мікроскопічних зображеннях. Датасет 400 зображень з ручною розміткою. Навчання Mask R‑CNN на ResNet‑50 backbone дало IoU 0.61 — погано. Проблема: об'єкти (клітини) перекриваються, стандартний NMS вбиває перекриваючі передбачення. Рішення: перехід на cellpose (спеціалізована архітектура для біомедичних задач) + soft‑NMS. IoU зріс до 0.79.

Коли Tesseract не справляється з OCR?

Tesseract — відправна точка для простих задач: друкований текст, хороше освітлення, рівне розташування. Як тільки з'являються рукописні елементи, нестандартні шрифти, перспективні спотворення або багатоколоночний макет — Tesseract деградує швидко.

PaddleOCR — production‑grade рішення: виявлення текстових блоків + розпізнавання + структурний аналіз. Працює з коробки для 80+ мов, включаючи українську. Підтримує таблиці та документи зі складною структурою. Wikipedia: Оптичне розпізнавання символів. TrOCR (Microsoft) — трансформерний OCR з сильними результатами на рукописному тексті. Для українського рукописного тексту потрібен fine‑tuning: базова модель навчена переважно на латиниці.

Що робити, якщо Tesseract не справляється з розпізнаванням образів на документах?

Для задач «витягни дані з рахунку / договору / паспорта» використовуємо LayoutLMv3 або Donut — ці моделі розуміють layout документа, а не тільки текст. Інтеграція через Hugging Face Transformers, fine‑tuning на 200–500 розмічених документах. Типовий pipeline:

Preprocessing: deskew, denoising, binarization через OpenCV.
Виявлення текстових блоків: PaddleOCR detection або CRAFT.
Розпізнавання: PaddleOCR recognition або TrOCR.
Post‑processing: нормалізація, валідація через regex або LLM для структурованих полів.

Для документів з фіксованою структурою template matching + OCR точково по координатах часто надійніше за end‑to‑end рішення.

Face Recognition: ідентифікація та верифікація

Face recognition = detection + alignment + embedding + matching. Кожен етап важливий.

Detection: RetinaFace або InsightFace для точної локалізації обличчя та ключових точок. MTCNN — старіше, але надійне рішення. Embedding: ArcFace (InsightFace) — state‑of‑the‑art для face recognition embeddings. Моделі iresnet50/iresnet100 передтреновані на MS1MV3 (5M ідентичностей). Ембеддинг‑вектор 512 float32, порівняння за cosine similarity. Threshold tuning: поріг рішення — критичний параметр. При threshold 0.6 типовий FPR на LFW benchmark — 0.001, TPR — 0.985. У production threshold потрібно калібрувати під реальний distribution: люди в масках, зі зміненою зовнішністю, в різних умовах освітлення. Liveness detection обов'язковий: MiniFASNet — lightweight модель на CPU, FaceX‑Zoo містить кілька передтренованих liveness‑детекторів.

Відеоаналітика

Відео — послідовність кадрів плюс часовий вимір. Наївний підхід — детектувати на кожному кадрі — дорого.

Трекінг: ByteTrack та BoT‑SORT — стандарт для multi‑object tracking. Працюють поверх будь-якого детектора, додають persistent ID об'єктам між кадрами — це дає підрахунок об'єктів, трекі руху, velocity.

Оптимізація: не потрібно обробляти кожен кадр. Для статичних сцен детекція на кожному 5–10 кадрі, між ними — трекер. Для детекції подій (людина увійшла в зону) background subtraction (OpenCV MOG2) як lightweight pre‑filter перед нейромережевою детекцією. Action Recognition: SlowFast, VideoMAE для класифікації дій. Важкі моделі — для production використовуємо ONNX export + TensorRT або офлайн обробку.

Як виміряти якість моделі розпізнавання образів у продакшені?

Моніторинг якості — ключовий елемент MLOps. Відстежуємо:

розподіл prediction confidence;
частку low‑confidence передбачень (індикатор OOD‑даних);
дрейф вхідних зображень через feature distribution (embeddings з backbone).

Падіння середньої confidence з 0.87 до 0.71 за тиждень — ранній сигнал про distribution shift. NVIDIA Triton Inference Server рекомендує відстежувати ці метрики через Prometheus. Наші сертифіковані інженери налаштовують моніторинг і гарантують SLA по якості інференсу.

Деплой CV‑моделей

Для онлайн інференсу використовуємо Triton Inference Server (NVIDIA) — production‑стандарт для serving CV‑моделей. Підтримує TensorRT, ONNX, PyTorch, dynamic batching, multiple instances. REST та gRPC API. Гарантуємо стабільну роботу під навантаженням.

Edge deployment: ONNX Runtime на ARM/x86 CPU. TensorFlow Lite для мобільних пристроїв. OpenVINO для Intel CPU/GPU/VPU — дає 2–3× приріст швидкості на Intel залізі порівняно з ONNX Runtime. Після деплою передаємо модель з документацією та навчаємо персонал.

Що входить в роботу

Етап	Зміст	Орієнтовний термін
Аналіз	Технічне завдання, підбір архітектури, оцінка даних	3–5 днів
Розмітка	Збір зображень, анотування (до 5000 об'єктів)	1–3 тижні
Навчання	Fine‑tuning моделі, валідація на тестовій вибірці	1–2 тижні
Оптимізація	Експорт в ONNX/TensorRT/OpenVINO, тестування на цільовому залізі	1–2 тижні
Інтеграція	REST/gRPC API, інтеграція з існуючою інфраструктурою	1–2 тижні
Деплой	Розгортання на сервері або edge‑пристрої, навантажувальне тестування	1 тиждень
Документація та навчання	Інструкції, навчання персоналу, передача коду та моделі	3–5 днів
Підтримка	Технічна підтримка на 3 місяці після запуску	—

Терміни та вартість

Прототип детектора на існуючих даних — 1–2 тижні. Production‑система з оптимізацією під цільове залізо — 4–8 тижнів. Повний цикл включаючи розмітку даних (1000–5000 зображень) — 2–4 місяці. Вартість розраховується індивідуально під кожну задачу. Ми на ринку більше 5 років, реалізували 60+ проектів з комп'ютерного зору. Оцінимо ваш проект під ключ — замовте консультацію, щоб отримати розрахунок та технічну пропозицію.