Які формати зображень підтримує Azure Computer Vision OCR?

Підтримуються JPEG, PNG, BMP, TIFF. Для PDF рекомендується попередньо конвертувати в зображення, оскільки Read API не обробляє PDF безпосередньо.

Чи можна розгорнути OCR на локальному сервері?

Так, Microsoft надає контейнер Docker для Read API. Дані не залишають вашу інфраструктуру, що важливо для банків та держорганізацій. Контейнер підтримує ті ж функції, що й хмарна версія.

Як витягнути дані з рахунків?

Використовуйте Document Intelligence з попередньо навченою моделлю 'prebuilt-invoice'. Вона автоматично розпізнає поля: постачальник, дата, сума, позиції. Точність на структурованих документах до 99%.

Скільки часу займає інтеграція?

Базова інтеграція Read API займає 3-5 днів. З Document Intelligence та кастомними моделями — від 2 тижнів. On-premise контейнер з обробкою PDF — 1-2 тижні. Терміни залежать від складності та обсягів.

Які формати зображень підтримує Azure Computer Vision OCR?

Підтримуються JPEG, PNG, BMP, TIFF. Для PDF рекомендується попередньо конвертувати в зображення, оскільки Read API не обробляє PDF безпосередньо.

Чи можна розгорнути OCR на локальному сервері?

Так, Microsoft надає контейнер Docker для Read API. Дані не залишають вашу інфраструктуру, що важливо для банків та держорганізацій. Контейнер підтримує ті ж функції, що й хмарна версія.

Як витягнути дані з рахунків?

Використовуйте Document Intelligence з попередньо навченою моделлю 'prebuilt-invoice'. Вона автоматично розпізнає поля: постачальник, дата, сума, позиції. Точність на структурованих документах до 99%.

Скільки часу займає інтеграція?

Базова інтеграція Read API займає 3-5 днів. З Document Intelligence та кастомними моделями — від 2 тижнів. On-premise контейнер з обробкою PDF — 1-2 тижні. Терміни залежать від складності та обсягів.

Видобування даних з документів за допомогою Azure Computer Vision

Q: Як обробити великий обсяг документів?

Використовуйте асинхронний Read API з урахуванням обмеження в 10 запитів на хвилину для одного ресурсу. Для пакетної обробки застосовуйте паралельні запити з повторними спробами при перевищенні ліміту.

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Видобування даних з документів за допомогою Azure Computer Vision

Простий

від 1 дня до 3 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Зазначимо: коли стандартні OCR-рішення дають збій на нестандартних шрифтах або поганому освітленні, особливо при необхідності витягти дані з сотень рахунків або паспортів, на допомогу приходить Azure Computer Vision — хмарний сервіс Microsoft для розпізнавання тексту. Сертифіковані інженери з досвідом налаштовують Read API та Document Intelligence під ваші завдання, гарантуючи точність до 99%. Ми впровадили понад 30 проєктів з автоматизації документообігу в різних галузях. Автоматизація скорочує витрати на ручну обробку до 80%, що при обсязі 10 000 документів на місяць економить близько $15 000.

Чому Read API — основний вибір для OCR в Azure?

Azure Computer Vision надає два OCR-сервіси: Read API (оптимізований для щільних документів, рекомендується Microsoft) та старий OCR API (тільки для простих зображень). Read API 4.0 працює як у хмарі, так і у вигляді контейнера для on-premise розгортання. Ми використовуємо Read API, оскільки він справляється з рукописним текстом, таблицями та багатосторінковими PDF. Згідно з офіційною документацією Microsoft, точність Read API на структурованих документах сягає 99%.

Інтеграція Read API в Python: покрокова інструкція

Створіть ресурс Computer Vision на порталі Azure (ключ та endpoint).
Встановіть бібліотеку azure-cognitiveservices-vision-computervision через pip.
Напишіть асинхронний виклик — код нижче демонструє клас AzureOCR для витягування тексту із зображення.
Обробіть результат — парсинг bounding boxes для таблиць, фільтрація за confidence.
Додайте повторні спроби при тайм-аутах (exponential backoff).

from azure.cognitiveservices.vision.computervision import ComputerVisionClient
from azure.cognitiveservices.vision.computervision.models import OperationStatusCodes
from msrest.authentication import CognitiveServicesCredentials
import time

class AzureOCR:
    def __init__(self, endpoint: str, api_key: str):
        self.client = ComputerVisionClient(
            endpoint,
            CognitiveServicesCredentials(api_key)
        )

    def extract_text_from_url(self, image_url: str) -> str:
        """Read API: асинхронна обробка через URL"""
        read_response = self.client.read_in_stream(
            open('image.jpg', 'rb'),
            raw=True
        )

        # Отримуємо operation ID із заголовка
        operation_location = read_response.headers['Operation-Location']
        operation_id = operation_location.split('/')[-1]

        # Очікування результату
        while True:
            read_result = self.client.get_read_result(operation_id)
            if read_result.status not in [
                OperationStatusCodes.running,
                OperationStatusCodes.not_started
            ]:
                break
            time.sleep(0.5)

        # Витягування тексту
        text_lines = []
        if read_result.status == OperationStatusCodes.succeeded:
            for page in read_result.analyze_result.read_results:
                for line in page.lines:
                    text_lines.append(line.text)

        return '\n'.join(text_lines)

    def extract_with_positions(self, image_path: str) -> list[dict]:
        """Витягування з координатами bounding boxes"""
        with open(image_path, 'rb') as f:
            read_response = self.client.read_in_stream(f, raw=True)

        operation_id = read_response.headers['Operation-Location'].split('/')[-1]

        while True:
            result = self.client.get_read_result(operation_id)
            if result.status not in [OperationStatusCodes.running,
                                       OperationStatusCodes.not_started]:
                break
            time.sleep(0.3)

        words = []
        if result.status == OperationStatusCodes.succeeded:
            for page in result.analyze_result.read_results:
                for line in page.lines:
                    for word in line.words:
                        words.append({
                            'text': word.text,
                            'confidence': word.confidence,
                            'bbox': word.bounding_box
                        })
        return words

Зв'яжіться з нами для розробки аналогічного рішення під ваш проєкт.

Коли використовувати Document Intelligence замість Read API?

Для довільного тексту на зображеннях використовуйте Read API. Якщо потрібно витягти структуровані поля з рахунків, договорів або посвідчень, краще підійде Document Intelligence (колишній Form Recognizer). Він містить попередньо навчені моделі та дозволяє створювати кастомні. Document Intelligence у 2-3 рази точніший на структурованих документах. Приклад аналізу інвойсу:

from azure.ai.formrecognizer import DocumentAnalysisClient
from azure.core.credentials import AzureKeyCredential

class AzureDocumentIntelligence:
    def __init__(self, endpoint: str, api_key: str):
        self.client = DocumentAnalysisClient(
            endpoint=endpoint,
            credential=AzureKeyCredential(api_key)
        )

    def analyze_invoice(self, image_path: str) -> dict:
        """Спеціалізований аналіз інвойсів"""
        with open(image_path, 'rb') as f:
            poller = self.client.begin_analyze_document(
                'prebuilt-invoice', f
            )

        result = poller.result()
        invoices = []

        for invoice in result.documents:
            fields = invoice.fields
            invoices.append({
                'vendor_name': fields.get('VendorName', {}).get('value'),
                'invoice_date': str(fields.get('InvoiceDate', {}).get('value')),
                'total_amount': fields.get('AmountDue', {}).get('value'),
                'invoice_id': fields.get('InvoiceId', {}).get('value'),
                'line_items': [
                    {
                        'description': item.get('Description', {}).get('value'),
                        'amount': item.get('Amount', {}).get('value')
                    }
                    for item in (fields.get('Items', {}).get('value') or [])
                ]
            })

        return invoices[0] if invoices else {}

Як розгорнути OCR on-premise?

Для даних з вимогою локальної обробки використовуйте Read API Container. Дані не покидають інфраструктуру, затримка мінімальна. Контейнер незамінний у банківському секторі та держорганізаціях. Запуск простий:

docker run --rm -it -p 5000:5000 \
  -e ApiKey=YOUR_KEY \
  -e Billing=YOUR_ENDPOINT \
  mcr.microsoft.com/azure-cognitive-services/vision/read:3.2

Кейс: обробка 10 000 рахунків на день

Для великого рітейлера ми розгорнули гібридне рішення: хмарний Read API для швидких запитів та on-premise контейнер для чутливих даних. Налаштували паралельні черги з Azure Service Bus, що дозволило обробляти до 10 000 рахунків щодня з latency p99 < 2 с. Точність розпізнавання полів склала 98.5%.

Процес впровадження Azure Computer Vision OCR

Аудит — аналіз поточних процесів обробки документів, типів документів, обсягів.
Проектування — вибір сервісу (Read API / Document Intelligence), архітектури (хмара / контейнер / гібрид).
Інтеграція — розробка Python-бібліотеки для виклику API з обробкою помилок, повторними спробами, моніторингом.
Тестування — перевірка accuracy на ваших зразках, стрес-тестування під навантаженням.
Деплой — розгортання в продуктив, налаштування CI/CD, моніторинг latency та accuracy.
Підтримка — навчання команди, документація, супровід після запуску.

Що входить в роботу (deliverables)

Документація — опис архітектури, інструкції з експлуатації, опис API.
Вихідний код — Python-модуль для інтеграції з Azure Computer Vision, включаючи обробку помилок та повторні спроби.
Навчання команди — воркшоп з використання розробленого рішення.
Підтримка — гарантійне обслуговування протягом місяця після запуску.

Як уникнути типових помилок при інтеграції OCR?

Неправильний вибір API — використання старого OCR замість Read API. Рішення: завжди використовуйте Read API для сучасних сценаріїв. Ігнорування лімітів: Read API обмежений 10 запитами на хвилину для одного ресурсу. Для пакетної обробки потрібно розподіляти запити по кількох ключах або вводити чергу. Відсутність обробки помилок: тайм-аути, недоступність сервісу. Додайте exponential backoff та retry logic. Забувають про bounding box: для витягування тексту з таблиць координати обов'язкові. Завжди використовуйте extract_with_positions при роботі з таблицями.

Можливість	Read API	Document Intelligence
OCR для довільного тексту	Так	Так
Структура таблиць	Ні	Так
Спеціалізовані моделі (invoice, ID)	Ні	Так
Кастомні моделі	Ні	Так
Ціна (1000 сторінок)	$1.50	$10–50

Завдання	Термін
Базова інтеграція Read API	3–5 днів
Document Intelligence з витягуванням полів	1–2 тижні
On-premise контейнер + обробка PDF	1–2 тижні

Чек-лист для успішної інтеграції

Визначте типи документів та необхідні поля.
Виберіть відповідний service tier (S0/S1) з урахуванням обсягів.
Реалізуйте асинхронні виклики з обробкою помилок.
Налаштуйте моніторинг метрик (latency, accuracy, error rate).
Проведіть A/B-тестування на реальних даних.

Отримайте консультацію інженера з Azure Computer Vision. Зв'яжіться з нами для оцінки вашого проєкту — ми допоможемо автоматизувати обробку документів з точністю до 99%.

Як distribution shift вбиває метрики CV-моделі в промисловості

На виробництві ставлять камеру, контролюють якість продукції. Модель навчена на 10 000 розмічених зображень — точність на тесті mAP 0.84. Запускають у продакшен — і в перший же тиждень пропускають 30% дефектів. Освітлення на лінії змінюється по змінах, distribution shift обнуляє метрики. Це класична історія з Computer Vision у промисловості, де розпізнавання образів дає збій без правильної обробки дрейфу.

Наші інженери з досвідом 60+ проектів з комп'ютерного зору знають, як виключити такі сценарії. Гарантуємо стабільну роботу моделі в реальних умовах.

Які архітектури детекції об'єктів обрати: YOLO, RT‑DETR чи інші?

YOLO — стандарт для real‑time детекції. YOLOv8 та YOLOv11 від Ultralytics — найбільш використовувані версії у виробництві: простий API, активна спільнота, вбудована валідація та експорт в ONNX/TensorRT. Для задач з високими вимогами до точності та коли latency менш критична — RT‑DETR, transformer‑based архітектура без NMS, дає кращий mAP на COCO при порівнянній швидкості з YOLOv8l.

Архітектура	mAP на COCO (val2017)	FPS (A10G, FP16)	Складність деплою
YOLOv8n	37.3	700+	Низька (ONNX/TensorRT)
YOLOv8m	50.2	250	Низька
RT‑DETR-L	53.0	140	Середня (вимагає PyTorch)
Mask R‑CNN	38.2 (bbox)	30	Висока

Типова помилка при навчанні детектора: датасет 8000 зображень, 3 класи, fine‑tune YOLOv8m — F1 0.73 на валідації. Дивимося confusion matrix — один клас майже ніколи не детектується. Причина: дисбаланс 1:23. Рішення: oversampling рідкісного класу, focal loss для objectness, аугментації (Mosaic, MixUp вимкнути для рідкісного класу — вони його «розмивають»). Transfer learning обов'язковий: передтреновані на COCO ваги скорочують потребу в даних у 10 разів. Fine‑tune на 500–2000 доменних зображеннях дає робочу модель за 1–2 дні на одній GPU.

Для edge deployment: експорт в ONNX → TensorRT engine. YOLOv8n в TensorRT FP16 на Jetson AGX Orin дає 150+ FPS при P99 latency < 8 ms — це в 3 рази швидше, ніж ONNX Runtime без TensorRT. На сервері A10G: 700+ FPS для YOLOv8n в TensorRT INT8.

Як fine‑tuning YOLO допомагає в розпізнаванні образів?

Припустимо, потрібно знаходити мікродефекти на поверхні металу — задача з високою роздільною здатністю та перекосом класів. Використовуємо YOLOv8m, передтренований на COCO (документація Ultralytics), і донавчаємо на 2000 власних зображень. Застосовуємо аугментації Mosaic, MixUp, random perspective. Після 200 епох mAP 0.5 досягає 0.93. Ключові прийоми:

focal loss для objectness голови — зменшує внесок легко класифікованих прикладів.
class‑balanced sampling — вирівнює представництво рідкісних класів.
Test Time Augmentation (TTA) — підвищує recall на 5–7% за рахунок усереднення по фліпах та масштабах.

Отримайте консультацію з підбору архітектури для вашого завдання — зв'яжіться з нами.

Які архітектури сегментації обрати: SAM, Mask R‑CNN чи інші?

SAM (Segment Anything Model) від Meta змінив підхід до сегментації. SAM 2 працює з відео, підтримує трекінг об'єктів через кадри — для інтерактивного виділення об'єкта по точці або bbox це найкращий вибір з коробки. Для production instance segmentation без інтерактивного промпту — Mask R‑CNN або YOLOv8‑seg. YOLOv8‑seg навчається як звичайний детектор з додатковими масками, зручний у тих же пайплайнах. Семантична сегментація (кожен піксель — клас) — SegFormer, DeepLabV3+. SegFormer‑B5 дає хороший баланс точності та швидкості для аналізу супутникових знімків або медичної сегментації.

Кейс: сегментація клітин на мікроскопічних зображеннях. Датасет 400 зображень з ручною розміткою. Навчання Mask R‑CNN на ResNet‑50 backbone дало IoU 0.61 — погано. Проблема: об'єкти (клітини) перекриваються, стандартний NMS вбиває перекриваючі передбачення. Рішення: перехід на cellpose (спеціалізована архітектура для біомедичних задач) + soft‑NMS. IoU зріс до 0.79.

Коли Tesseract не справляється з OCR?

Tesseract — відправна точка для простих задач: друкований текст, хороше освітлення, рівне розташування. Як тільки з'являються рукописні елементи, нестандартні шрифти, перспективні спотворення або багатоколоночний макет — Tesseract деградує швидко.

PaddleOCR — production‑grade рішення: виявлення текстових блоків + розпізнавання + структурний аналіз. Працює з коробки для 80+ мов, включаючи українську. Підтримує таблиці та документи зі складною структурою. Wikipedia: Оптичне розпізнавання символів. TrOCR (Microsoft) — трансформерний OCR з сильними результатами на рукописному тексті. Для українського рукописного тексту потрібен fine‑tuning: базова модель навчена переважно на латиниці.

Що робити, якщо Tesseract не справляється з розпізнаванням образів на документах?

Для задач «витягни дані з рахунку / договору / паспорта» використовуємо LayoutLMv3 або Donut — ці моделі розуміють layout документа, а не тільки текст. Інтеграція через Hugging Face Transformers, fine‑tuning на 200–500 розмічених документах. Типовий pipeline:

Preprocessing: deskew, denoising, binarization через OpenCV.
Виявлення текстових блоків: PaddleOCR detection або CRAFT.
Розпізнавання: PaddleOCR recognition або TrOCR.
Post‑processing: нормалізація, валідація через regex або LLM для структурованих полів.

Для документів з фіксованою структурою template matching + OCR точково по координатах часто надійніше за end‑to‑end рішення.

Face Recognition: ідентифікація та верифікація

Face recognition = detection + alignment + embedding + matching. Кожен етап важливий.

Detection: RetinaFace або InsightFace для точної локалізації обличчя та ключових точок. MTCNN — старіше, але надійне рішення. Embedding: ArcFace (InsightFace) — state‑of‑the‑art для face recognition embeddings. Моделі iresnet50/iresnet100 передтреновані на MS1MV3 (5M ідентичностей). Ембеддинг‑вектор 512 float32, порівняння за cosine similarity. Threshold tuning: поріг рішення — критичний параметр. При threshold 0.6 типовий FPR на LFW benchmark — 0.001, TPR — 0.985. У production threshold потрібно калібрувати під реальний distribution: люди в масках, зі зміненою зовнішністю, в різних умовах освітлення. Liveness detection обов'язковий: MiniFASNet — lightweight модель на CPU, FaceX‑Zoo містить кілька передтренованих liveness‑детекторів.

Відеоаналітика

Відео — послідовність кадрів плюс часовий вимір. Наївний підхід — детектувати на кожному кадрі — дорого.

Трекінг: ByteTrack та BoT‑SORT — стандарт для multi‑object tracking. Працюють поверх будь-якого детектора, додають persistent ID об'єктам між кадрами — це дає підрахунок об'єктів, трекі руху, velocity.

Оптимізація: не потрібно обробляти кожен кадр. Для статичних сцен детекція на кожному 5–10 кадрі, між ними — трекер. Для детекції подій (людина увійшла в зону) background subtraction (OpenCV MOG2) як lightweight pre‑filter перед нейромережевою детекцією. Action Recognition: SlowFast, VideoMAE для класифікації дій. Важкі моделі — для production використовуємо ONNX export + TensorRT або офлайн обробку.

Як виміряти якість моделі розпізнавання образів у продакшені?

Моніторинг якості — ключовий елемент MLOps. Відстежуємо:

розподіл prediction confidence;
частку low‑confidence передбачень (індикатор OOD‑даних);
дрейф вхідних зображень через feature distribution (embeddings з backbone).

Падіння середньої confidence з 0.87 до 0.71 за тиждень — ранній сигнал про distribution shift. NVIDIA Triton Inference Server рекомендує відстежувати ці метрики через Prometheus. Наші сертифіковані інженери налаштовують моніторинг і гарантують SLA по якості інференсу.

Деплой CV‑моделей

Для онлайн інференсу використовуємо Triton Inference Server (NVIDIA) — production‑стандарт для serving CV‑моделей. Підтримує TensorRT, ONNX, PyTorch, dynamic batching, multiple instances. REST та gRPC API. Гарантуємо стабільну роботу під навантаженням.

Edge deployment: ONNX Runtime на ARM/x86 CPU. TensorFlow Lite для мобільних пристроїв. OpenVINO для Intel CPU/GPU/VPU — дає 2–3× приріст швидкості на Intel залізі порівняно з ONNX Runtime. Після деплою передаємо модель з документацією та навчаємо персонал.

Що входить в роботу

Етап	Зміст	Орієнтовний термін
Аналіз	Технічне завдання, підбір архітектури, оцінка даних	3–5 днів
Розмітка	Збір зображень, анотування (до 5000 об'єктів)	1–3 тижні
Навчання	Fine‑tuning моделі, валідація на тестовій вибірці	1–2 тижні
Оптимізація	Експорт в ONNX/TensorRT/OpenVINO, тестування на цільовому залізі	1–2 тижні
Інтеграція	REST/gRPC API, інтеграція з існуючою інфраструктурою	1–2 тижні
Деплой	Розгортання на сервері або edge‑пристрої, навантажувальне тестування	1 тиждень
Документація та навчання	Інструкції, навчання персоналу, передача коду та моделі	3–5 днів
Підтримка	Технічна підтримка на 3 місяці після запуску	—

Терміни та вартість

Прототип детектора на існуючих даних — 1–2 тижні. Production‑система з оптимізацією під цільове залізо — 4–8 тижнів. Повний цикл включаючи розмітку даних (1000–5000 зображень) — 2–4 місяці. Вартість розраховується індивідуально під кожну задачу. Ми на ринку більше 5 років, реалізували 60+ проектів з комп'ютерного зору. Оцінимо ваш проект під ключ — замовте консультацію, щоб отримати розрахунок та технічну пропозицію.