Як працює автоматична класифікація документів?

Система використовує мультимодальний підхід: одночасно аналізує візуальні ознаки (розмітка, логотипи, таблиці) та текст документа. На вхід подається скан або фото, на виході — тип документа та впевненість моделі.

Які типи документів підтримуються?

Ми охоплюємо бухгалтерські (рахунок, накладна, акт), KYC (паспорт, ІПН), медичні (направлення, виписка), юридичні (позов, рішення суду) та логістичні документи. Список розширюється під завдання замовника.

Яку точність забезпечує система?

На корпусі з 25 класів українських документів Top‑1 Accuracy становить 94–97%. Для рідкісних класів Recall тримається на рівні 85–91%. Точність залежить від якості сканів та різноманітності навчальної вибірки.

Скільки часу займає впровадження рішення?

Для 5–10 класів потрібно 2–3 тижні. Для 20–50 класів з різними форматами — 4–7 тижнів. Якщо потрібен continuous learning (додавання нових класів без перенавчання), термін збільшується до 6–10 тижнів.

Яке обладнання потрібне для роботи?

Для інференсу достатньо CPU з 8 ГБ ОЗУ для простих моделей. Для мультимодального класифікатора (LayoutLMv3) рекомендуємо GPU з 4 ГБ відеопам'яті. На етапі навчання використовуємо хмарні інстанси з NVIDIA A100 або V100.

Як працює автоматична класифікація документів?

Система використовує мультимодальний підхід: одночасно аналізує візуальні ознаки (розмітка, логотипи, таблиці) та текст документа. На вхід подається скан або фото, на виході — тип документа та впевненість моделі.

Які типи документів підтримуються?

Ми охоплюємо бухгалтерські (рахунок, накладна, акт), KYC (паспорт, ІПН), медичні (направлення, виписка), юридичні (позов, рішення суду) та логістичні документи. Список розширюється під завдання замовника.

Яку точність забезпечує система?

На корпусі з 25 класів українських документів Top‑1 Accuracy становить 94–97%. Для рідкісних класів Recall тримається на рівні 85–91%. Точність залежить від якості сканів та різноманітності навчальної вибірки.

Скільки часу займає впровадження рішення?

Для 5–10 класів потрібно 2–3 тижні. Для 20–50 класів з різними форматами — 4–7 тижнів. Якщо потрібен continuous learning (додавання нових класів без перенавчання), термін збільшується до 6–10 тижнів.

Яке обладнання потрібне для роботи?

Для інференсу достатньо CPU з 8 ГБ ОЗУ для простих моделей. Для мультимодального класифікатора (LayoutLMv3) рекомендуємо GPU з 4 ГБ відеопам'яті. На етапі навчання використовуємо хмарні інстанси з NVIDIA A100 або V100.

Автоматична класифікація документів за типом: реалізація на ML

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Автоматична класифікація документів за типом: реалізація на ML

Середній

~3-5 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Реалізація автоматичної класифікації документів за типом

Класифікація документів — перший етап у Document Processing Pipeline. Перш ніж витягувати дані, система повинна зрозуміти, що за документ перед нею: рахунок-фактура, накладна, паспорт чи акт. Для кожного типу потрібен свій екстрактор, помилка на цьому етапі ламає весь ланцюжок. Ми реалізували мультимодальний класифікатор, який одночасно аналізує візуальні та текстові ознаки. Такий підхід дає точність до 97% на українських документах — це на 5–7% вище за чисто текстові рішення. Економія часу на ручному сортуванні сягає 80%. Зниження витрат на обробку документів — до 70%, середній термін окупності — 6–12 місяців.

У статті розберемо побудову системи класифікації, вибір моделі та типові помилки. Опишемо реальний кейс впровадження. Гарантуємо якість на кожному етапі — від розмітки до деплою.

Чому ми обрали мультимодальний підхід?

Чисто текстова класифікація на основі OCR дає точність 85–90%. Додавання візуальних ознак піднімає планку до 94–97%. Це критично для документів з однаковим текстом, але різним оформленням. Наприклад, рахунок від банку та рахунок від постачальника виглядають по-різному, хоча містять схожі поля. Візуальний аналізатор вловлює розташування логотипу, таблиці, кольорові блоки. Мультимодальний підхід LayoutLMv3: Multi-modal Pre-training в 1.5 рази точніший на складних документах.

Мультимодальна класифікація

Найкращий підхід — одночасно використовувати візуальні та текстові ознаки. Нижче — приклад на базі LayoutLMv3:

from transformers import LayoutLMv3ForSequenceClassification, LayoutLMv3Processor
import torch
import torch.nn as nn

class DocumentClassifier:
    def __init__(self, model_path: str, doc_types: list[str]):
        self.processor = LayoutLMv3Processor.from_pretrained(model_path)
        self.model = LayoutLMv3ForSequenceClassification.from_pretrained(
            model_path,
            num_labels=len(doc_types)
        )
        self.doc_types = doc_types
        self.model.eval()

    @torch.no_grad()
    def classify(self, image_path: str) -> dict:
        from PIL import Image
        image = Image.open(image_path).convert('RGB')

        encoding = self.processor(
            image, return_tensors='pt',
            truncation=True, max_length=512
        )

        outputs = self.model(**encoding)
        probs = torch.softmax(outputs.logits, dim=-1).squeeze()

        top_idx = probs.argmax().item()
        return {
            'document_type': self.doc_types[top_idx],
            'confidence': float(probs[top_idx]),
            'all_scores': {
                self.doc_types[i]: float(probs[i])
                for i in range(len(self.doc_types))
            }
        }

Навчання без LayoutLM: EfficientNet + BERT

Для швидкого прототипу без доступу до великих моделей використовуємо комбінацію EfficientNet (візуальний енкодер) та RuBERT (текстовий). Цей підхід дає 91–94% точності на 15 класах — поступається LayoutLMv3, але потребує на порядок менше ресурсів. Код легко адаптувати:

import timm
from transformers import AutoTokenizer, AutoModel

class LightweightDocClassifier(nn.Module):
    def __init__(self, num_classes: int):
        super().__init__()
        # Visual encoder
        self.visual = timm.create_model('efficientnet_b2', 
                                         pretrained=True, num_classes=0)
        # Text encoder
        self.text_encoder = AutoModel.from_pretrained('DeepPavlov/rubert-base-cased')
        self.tokenizer = AutoTokenizer.from_pretrained('DeepPavlov/rubert-base-cased')

        # Fusion
        vis_dim = self.visual.num_features  # 1408
        text_dim = 768
        self.fusion = nn.Sequential(
            nn.Linear(vis_dim + text_dim, 512),
            nn.GELU(),
            nn.Dropout(0.3),
            nn.Linear(512, num_classes)
        )

    def forward(self, image_tensor, input_ids, attention_mask):
        vis_features = self.visual(image_tensor)
        text_out = self.text_encoder(input_ids, attention_mask)
        text_features = text_out.pooler_output  # [CLS] token

        combined = torch.cat([vis_features, text_features], dim=-1)
        return self.fusion(combined)

Типові класи документів

Домен	Класи документів
Бухгалтерія	Рахунок, накладна, акт, рахунок-фактура, договір, довіреність
KYC/AML	Паспорт, ІПН, РНОКПП, права, закордонний паспорт
Медицина	Направлення, рецепт, виписка, результат аналізу
Юриспруденція	Позовна заява, рішення суду, договір, довіреність
Логістика	Накладна, CMR, митна декларація, коносамент

Колекція ознак для класифікації

Для підвищення точності додаємо структурні та текстові ознаки. Вони особливо корисні для розділення схожих типів, наприклад рахунок vs рахунок-фактура:

def extract_document_features(image_path: str, ocr_text: str) -> dict:
    return {
        # Структурні ознаки
        'has_table': detect_tables(image_path),
        'has_signature': detect_signature_zone(image_path),
        'has_stamp': detect_stamp(image_path),
        'has_photo': detect_person_photo(image_path),

        # Текстові патерни (регулярні вирази)
        'has_inn': bool(re.search(r'\bІПН\b', ocr_text)),
        'has_kpp': bool(re.search(r'\bКПП\b', ocr_text)),
        'has_passport_series': bool(re.search(r'\d{4}\s\d{6}', ocr_text)),
        'has_invoice_number': bool(re.search(r'№\s*\d+', ocr_text)),

        # Метадані
        'aspect_ratio': get_aspect_ratio(image_path),
        'orientation': detect_orientation(image_path),
    }

Як впровадити класифікацію за 5 кроків?

Процес впровадження розбитий на чіткі етапи:

Аналіз документообігу — вивчаємо типи документів, їх обсяг, джерела надходження, поточні помилки.
Збір та розмітка датасету — збираємо від 2000 зразків на клас, розмічаємо тип. Використовуємо активне навчання для зниження витрат.
Вибір та навчання моделі — на основі аналізу обираємо LayoutLMv3 або EfficientNet+RuBERT.
Валідація та тестування — перевіряємо на реальних сканах, вимірюємо Top-1 Accuracy та Macro F1.
Інтеграція та деплой — пакуємо модель у REST API, надаємо документацію.

Метрики на українських документах

Типова точність на корпусі українських документів (25 класів):

Метрика	Значення
Top-1 Accuracy	94–97%
Macro F1	92–96%
Recall на рідкісних класах	85–91%

Складні випадки: документи одного типу в різних форматах, погана якість сканів, ламіновані документи. Використовуємо аугментацію та ансамбль моделей — приріст Recall 3–5%.

Реальний кейс: логістична компанія

До нас звернулася логістична компанія з проблемою: 40% документів (накладні, CMR, митні декларації) надходили в неправильні папки через ручну сортування. Ми впровадили мультимодальний класифікатор на базі LayoutLMv3. Результати:

Точність класифікації зросла з 82% до 96%.
Час обробки одного документа скоротився з 8 секунд до 1.2 секунди.
Помилки сортування зменшилися на 80%.
Компанія заощадила 70% витрат на обробку документів протягом 8 місяців після впровадження.

Типові помилки при класифікації

Ігнорування мультимодальності — чистий текст дає низьку точність на візуально схожих документах.
Маленька навчальна вибірка — менше 500 зразків на клас веде до перенавчання.
Відсутність аугментації — модель не узагальнює на повернуті або засвічені скани.

Також часта проблема — неврахування нових класів. Ми вбудовуємо механізм metric learning для додавання класів без перенавчання.

Що входить у нашу роботу?

Ми пропонуємо впровадження під ключ:

Аналіз документообігу та виділення типів документів.
Збір та розмітка датасету (від 2000 зразків на клас).
Вибір та навчання моделі (LayoutLMv3 / EfficientNet+RuBERT).
Валідація та тестування на реальних сканах.
Інтеграція через REST API (документація, приклади коду).
Навчання операторів та супровід 3 місяці.

Ми спеціалізуємося на NLP та Computer Vision більше 7 років, виконали 15+ проектів для банків, страхових та логістичних компаній. Наші моделі сертифіковані на українських документах. LayoutLMv3: Multi-modal Pre-training — основа багатьох рішень.

Отримайте консультацію щодо вашого документообігу. Зв'яжіться з нами — оцінимо проект за 2 дні. Для типового проекту (5–10 класів) результат через 2–3 тижні. Замовте пілотний проект і переконайтеся в точності класифікації.

Як distribution shift вбиває метрики CV-моделі в промисловості

На виробництві ставлять камеру, контролюють якість продукції. Модель навчена на 10 000 розмічених зображень — точність на тесті mAP 0.84. Запускають у продакшен — і в перший же тиждень пропускають 30% дефектів. Освітлення на лінії змінюється по змінах, distribution shift обнуляє метрики. Це класична історія з Computer Vision у промисловості, де розпізнавання образів дає збій без правильної обробки дрейфу.

Наші інженери з досвідом 60+ проектів з комп'ютерного зору знають, як виключити такі сценарії. Гарантуємо стабільну роботу моделі в реальних умовах.

Які архітектури детекції об'єктів обрати: YOLO, RT‑DETR чи інші?

YOLO — стандарт для real‑time детекції. YOLOv8 та YOLOv11 від Ultralytics — найбільш використовувані версії у виробництві: простий API, активна спільнота, вбудована валідація та експорт в ONNX/TensorRT. Для задач з високими вимогами до точності та коли latency менш критична — RT‑DETR, transformer‑based архітектура без NMS, дає кращий mAP на COCO при порівнянній швидкості з YOLOv8l.

Архітектура	mAP на COCO (val2017)	FPS (A10G, FP16)	Складність деплою
YOLOv8n	37.3	700+	Низька (ONNX/TensorRT)
YOLOv8m	50.2	250	Низька
RT‑DETR-L	53.0	140	Середня (вимагає PyTorch)
Mask R‑CNN	38.2 (bbox)	30	Висока

Типова помилка при навчанні детектора: датасет 8000 зображень, 3 класи, fine‑tune YOLOv8m — F1 0.73 на валідації. Дивимося confusion matrix — один клас майже ніколи не детектується. Причина: дисбаланс 1:23. Рішення: oversampling рідкісного класу, focal loss для objectness, аугментації (Mosaic, MixUp вимкнути для рідкісного класу — вони його «розмивають»). Transfer learning обов'язковий: передтреновані на COCO ваги скорочують потребу в даних у 10 разів. Fine‑tune на 500–2000 доменних зображеннях дає робочу модель за 1–2 дні на одній GPU.

Для edge deployment: експорт в ONNX → TensorRT engine. YOLOv8n в TensorRT FP16 на Jetson AGX Orin дає 150+ FPS при P99 latency < 8 ms — це в 3 рази швидше, ніж ONNX Runtime без TensorRT. На сервері A10G: 700+ FPS для YOLOv8n в TensorRT INT8.

Як fine‑tuning YOLO допомагає в розпізнаванні образів?

Припустимо, потрібно знаходити мікродефекти на поверхні металу — задача з високою роздільною здатністю та перекосом класів. Використовуємо YOLOv8m, передтренований на COCO (документація Ultralytics), і донавчаємо на 2000 власних зображень. Застосовуємо аугментації Mosaic, MixUp, random perspective. Після 200 епох mAP 0.5 досягає 0.93. Ключові прийоми:

focal loss для objectness голови — зменшує внесок легко класифікованих прикладів.
class‑balanced sampling — вирівнює представництво рідкісних класів.
Test Time Augmentation (TTA) — підвищує recall на 5–7% за рахунок усереднення по фліпах та масштабах.

Отримайте консультацію з підбору архітектури для вашого завдання — зв'яжіться з нами.

Які архітектури сегментації обрати: SAM, Mask R‑CNN чи інші?

SAM (Segment Anything Model) від Meta змінив підхід до сегментації. SAM 2 працює з відео, підтримує трекінг об'єктів через кадри — для інтерактивного виділення об'єкта по точці або bbox це найкращий вибір з коробки. Для production instance segmentation без інтерактивного промпту — Mask R‑CNN або YOLOv8‑seg. YOLOv8‑seg навчається як звичайний детектор з додатковими масками, зручний у тих же пайплайнах. Семантична сегментація (кожен піксель — клас) — SegFormer, DeepLabV3+. SegFormer‑B5 дає хороший баланс точності та швидкості для аналізу супутникових знімків або медичної сегментації.

Кейс: сегментація клітин на мікроскопічних зображеннях. Датасет 400 зображень з ручною розміткою. Навчання Mask R‑CNN на ResNet‑50 backbone дало IoU 0.61 — погано. Проблема: об'єкти (клітини) перекриваються, стандартний NMS вбиває перекриваючі передбачення. Рішення: перехід на cellpose (спеціалізована архітектура для біомедичних задач) + soft‑NMS. IoU зріс до 0.79.

Коли Tesseract не справляється з OCR?

Tesseract — відправна точка для простих задач: друкований текст, хороше освітлення, рівне розташування. Як тільки з'являються рукописні елементи, нестандартні шрифти, перспективні спотворення або багатоколоночний макет — Tesseract деградує швидко.

PaddleOCR — production‑grade рішення: виявлення текстових блоків + розпізнавання + структурний аналіз. Працює з коробки для 80+ мов, включаючи українську. Підтримує таблиці та документи зі складною структурою. Wikipedia: Оптичне розпізнавання символів. TrOCR (Microsoft) — трансформерний OCR з сильними результатами на рукописному тексті. Для українського рукописного тексту потрібен fine‑tuning: базова модель навчена переважно на латиниці.

Що робити, якщо Tesseract не справляється з розпізнаванням образів на документах?

Для задач «витягни дані з рахунку / договору / паспорта» використовуємо LayoutLMv3 або Donut — ці моделі розуміють layout документа, а не тільки текст. Інтеграція через Hugging Face Transformers, fine‑tuning на 200–500 розмічених документах. Типовий pipeline:

Preprocessing: deskew, denoising, binarization через OpenCV.
Виявлення текстових блоків: PaddleOCR detection або CRAFT.
Розпізнавання: PaddleOCR recognition або TrOCR.
Post‑processing: нормалізація, валідація через regex або LLM для структурованих полів.

Для документів з фіксованою структурою template matching + OCR точково по координатах часто надійніше за end‑to‑end рішення.

Face Recognition: ідентифікація та верифікація

Face recognition = detection + alignment + embedding + matching. Кожен етап важливий.

Detection: RetinaFace або InsightFace для точної локалізації обличчя та ключових точок. MTCNN — старіше, але надійне рішення. Embedding: ArcFace (InsightFace) — state‑of‑the‑art для face recognition embeddings. Моделі iresnet50/iresnet100 передтреновані на MS1MV3 (5M ідентичностей). Ембеддинг‑вектор 512 float32, порівняння за cosine similarity. Threshold tuning: поріг рішення — критичний параметр. При threshold 0.6 типовий FPR на LFW benchmark — 0.001, TPR — 0.985. У production threshold потрібно калібрувати під реальний distribution: люди в масках, зі зміненою зовнішністю, в різних умовах освітлення. Liveness detection обов'язковий: MiniFASNet — lightweight модель на CPU, FaceX‑Zoo містить кілька передтренованих liveness‑детекторів.

Відеоаналітика

Відео — послідовність кадрів плюс часовий вимір. Наївний підхід — детектувати на кожному кадрі — дорого.

Трекінг: ByteTrack та BoT‑SORT — стандарт для multi‑object tracking. Працюють поверх будь-якого детектора, додають persistent ID об'єктам між кадрами — це дає підрахунок об'єктів, трекі руху, velocity.

Оптимізація: не потрібно обробляти кожен кадр. Для статичних сцен детекція на кожному 5–10 кадрі, між ними — трекер. Для детекції подій (людина увійшла в зону) background subtraction (OpenCV MOG2) як lightweight pre‑filter перед нейромережевою детекцією. Action Recognition: SlowFast, VideoMAE для класифікації дій. Важкі моделі — для production використовуємо ONNX export + TensorRT або офлайн обробку.

Як виміряти якість моделі розпізнавання образів у продакшені?

Моніторинг якості — ключовий елемент MLOps. Відстежуємо:

розподіл prediction confidence;
частку low‑confidence передбачень (індикатор OOD‑даних);
дрейф вхідних зображень через feature distribution (embeddings з backbone).

Падіння середньої confidence з 0.87 до 0.71 за тиждень — ранній сигнал про distribution shift. NVIDIA Triton Inference Server рекомендує відстежувати ці метрики через Prometheus. Наші сертифіковані інженери налаштовують моніторинг і гарантують SLA по якості інференсу.

Деплой CV‑моделей

Для онлайн інференсу використовуємо Triton Inference Server (NVIDIA) — production‑стандарт для serving CV‑моделей. Підтримує TensorRT, ONNX, PyTorch, dynamic batching, multiple instances. REST та gRPC API. Гарантуємо стабільну роботу під навантаженням.

Edge deployment: ONNX Runtime на ARM/x86 CPU. TensorFlow Lite для мобільних пристроїв. OpenVINO для Intel CPU/GPU/VPU — дає 2–3× приріст швидкості на Intel залізі порівняно з ONNX Runtime. Після деплою передаємо модель з документацією та навчаємо персонал.

Що входить в роботу

Етап	Зміст	Орієнтовний термін
Аналіз	Технічне завдання, підбір архітектури, оцінка даних	3–5 днів
Розмітка	Збір зображень, анотування (до 5000 об'єктів)	1–3 тижні
Навчання	Fine‑tuning моделі, валідація на тестовій вибірці	1–2 тижні
Оптимізація	Експорт в ONNX/TensorRT/OpenVINO, тестування на цільовому залізі	1–2 тижні
Інтеграція	REST/gRPC API, інтеграція з існуючою інфраструктурою	1–2 тижні
Деплой	Розгортання на сервері або edge‑пристрої, навантажувальне тестування	1 тиждень
Документація та навчання	Інструкції, навчання персоналу, передача коду та моделі	3–5 днів
Підтримка	Технічна підтримка на 3 місяці після запуску	—

Терміни та вартість

Прототип детектора на існуючих даних — 1–2 тижні. Production‑система з оптимізацією під цільове залізо — 4–8 тижнів. Повний цикл включаючи розмітку даних (1000–5000 зображень) — 2–4 місяці. Вартість розраховується індивідуально під кожну задачу. Ми на ринку більше 5 років, реалізували 60+ проектів з комп'ютерного зору. Оцінимо ваш проект під ключ — замовте консультацію, щоб отримати розрахунок та технічну пропозицію.