Какие типы документов поддерживает Document AI?

Система обрабатывает структурированные (счета, накладные), полуструктурированные (договоры, анкеты) и неструктурированные (письма, отчёты) документы, а также сканы и изображения. Каждый тип требует специфической предобработки.

Какой OCR лучше использовать для сканов в Document AI?

Выбор зависит от требований к скорости и точности. Tesseract подходит для простых сценариев, Azure Document Intelligence и Google Document AI — для сложных многостраничных документов. Для on-premise используем PaddleOCR с дообучением.

Можно ли интегрировать Document AI с 1С и другими ERP?

Да, мы разрабатываем модули интеграции через REST API или прямые коннекторы к 1С, SAP, Oracle. Извлечённые данные автоматически загружаются в учётную систему.

Какова точность извлечения данных из документов?

Для структурированных документов (XML, ФНС) точность достигает 99% без машинного обучения. Для произвольных форм — от 85% до 95% в зависимости от качества скана и вариативности. Каждое поле сопровождается confidence score.

Сколько времени занимает внедрение Document AI?

Базовый pipeline (OCR, классификация, извлечение для 5 типов документов) внедряется за 2–3 месяца. Полноценная платформа с семантическим поиском и интеграциями — от 4 до 6 месяцев.

Какие типы документов поддерживает Document AI?

Система обрабатывает структурированные (счета, накладные), полуструктурированные (договоры, анкеты) и неструктурированные (письма, отчёты) документы, а также сканы и изображения. Каждый тип требует специфической предобработки.

Какой OCR лучше использовать для сканов в Document AI?

Выбор зависит от требований к скорости и точности. Tesseract подходит для простых сценариев, Azure Document Intelligence и Google Document AI — для сложных многостраничных документов. Для on-premise используем PaddleOCR с дообучением.

Можно ли интегрировать Document AI с 1С и другими ERP?

Да, мы разрабатываем модули интеграции через REST API или прямые коннекторы к 1С, SAP, Oracle. Извлечённые данные автоматически загружаются в учётную систему.

Какова точность извлечения данных из документов?

Для структурированных документов (XML, ФНС) точность достигает 99% без машинного обучения. Для произвольных форм — от 85% до 95% в зависимости от качества скана и вариативности. Каждое поле сопровождается confidence score.

Сколько времени занимает внедрение Document AI?

Базовый pipeline (OCR, классификация, извлечение для 5 типов документов) внедряется за 2–3 месяца. Полноценная платформа с семантическим поиском и интеграциями — от 4 до 6 месяцев.

Разработка Document AI для обработки документов

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Разработка Document AI для обработки документов

Сложный

~2-4 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1361
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1189
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
930

Показать больше работ

Ваши операторы тратят часы на ввод счетов и накладных, а ошибки всё равно проскальзывают? Мы сталкивались с этим у десятков клиентов и знаем, как это исправить. На обработку 1000 счетов уходит до 80 часов работы операторов, что обходится в тысячи долларов ежемесячно. За время нашей практики мы разработали десятки решений для интеллектуальной обработки документов (IDP) для банков, логистики и ритейла. Расскажу, как строятся такие системы и каких результатов можно достичь.

Document AI обрабатывает документы в десятки раз быстрее человека, а экономия на обработке одного документа достигает 95% по сравнению с ручным вводом. Для клиента с объёмом 2000 документов в месяц это означает экономию от 2 до 5 миллионов рублей в год. Сравним ручную обработку и Document AI:

Параметр	Ручная обработка	Document AI
Скорость (1000 счетов)	40–80 часов	10–15 минут
Ошибки ввода	2–5%	<0.1% при confidence фильтре
Масштабирование	Линейный рост штата	Горизонтальное масштабирование
Доступность	9–5	24/7
Стоимость на документ	высокая	в 10–20 раз ниже

Как Document AI экономит до 95% времени на обработку?

Платформа состоит из нескольких слоёв, каждый из которых решает свою подзадачу. Типовой pipeline:

[Входящий документ: PDF, DOCX, JPG, TXT]
    → [Document Intake Service]
         ├── Определение типа (PDF/скан/текстовый)
         └── Маршрутизация

    → [Pre-processing]
         ├── OCR (если скан): Tesseract / Azure DI / Google Document AI
         ├── Извлечение таблиц: Camelot / pdfplumber / Table Transformer
         └── Layout Analysis: расположение элементов страницы

    → [AI Processing Pipeline]
         ├── Классификация типа документа
         ├── Извлечение структурированных данных
         ├── Валидация извлечённых данных
         └── Генерация суммари / аналитики

    → [Output]
         ├── JSON с извлечёнными данными
         ├── Структурированная запись в БД
         └── Уведомления / интеграции

Процесс построения такой системы включает пять этапов:

Сбор и разметка репрезентативной выборки документов (100–200 штук).
Выбор и настройка OCR + предобработка изображений.
Обучение моделей классификации и извлечения полей.
Интеграция с ERP через REST API или прямые коннекторы.
Запуск мониторинга и цикл дообучения по мере поступления новых типов.

Почему preprocessing — критический этап?

Качество OCR и layout analysis напрямую определяет точность последующего извлечения. Для сканов низкого разрешения приходится применять свёрточные сети (Table Transformer) для обнаружения таблиц. В одном из проектов для ритейла мы боролись с накладными, напечатанными на термобумаге — пришлось дообучать модель на синтетических данных, имитирующих выцветание. Использование современных OCR-движков, таких как Azure Document Intelligence, позволяет повысить точность извлечения до 99% на качественных сканах, но для сложных случаев требуется кастомная предобработка.

Детали сравнения OCR-решений

Tesseract — бесплатный, базовый уровень. Azure DI — высокая точность на сложных макетах, платный. PaddleOCR — on-premise, дообучается под специфические шрифты. Google Document AI — хорош для многостраничных сканов. Для OCR NLP pipeline выбирайте движок исходя из типов документов и требований к конфиденциальности.

Типы обрабатываемых документов

Система обрабатывает различные типы документов. Подходы различаются:

Структурированные (счета, накладные, налоговые формы): детерминированные форматы, извлечение полей с высокой точностью.
Полуструктурированные (договоры, анкеты, заявления): вариативная структура, требует понимания контекста.
Неструктурированные (письма, отчёты, медицинские записи): свободный текст, NLP-обработка.
Изображения и сканы: предварительный OCR, затем NLP-обработка.

Тип документа	Пример	Метод обработки	Точность
Структурированный	XML УПД	Парсинг XPath	99%
Полуструктурированный	Договор	LLM + шаблон	90–95%
Неструктурированный	Письмо	NLP классификация	85–90%
Скан	Фото чека	OCR + IDP модель	80–95%

Техническая реализация

Извлечение данных из структурированных документов

Для стандартизированных форм (СФ, УПД, накладные в формате ФНС XML) — детерминированный парсинг через XPath, без ML:

from lxml import etree

def parse_upd(xml_path: str) -> InvoiceData:
    tree = etree.parse(xml_path)
    root = tree.getroot()
    ns = {"n": "urn:NDS"}

    return InvoiceData(
        seller_inn=root.findtext(".//n:СвПродавца/n:ИдСв/n:СвЮЛ/@ИННЮЛ", namespaces=ns),
        invoice_number=root.findtext(".//n:Документ/n:НомерДок", namespaces=ns),
        total_amount=float(root.findtext(".//n:ВсегоОпл", namespaces=ns) or 0),
    )

ML нужен только для нестандартных форматов.

IDP для сканов: стек и примеры

from azure.ai.documentintelligence import DocumentIntelligenceClient
from azure.core.credentials import AzureKeyCredential

client = DocumentIntelligenceClient(endpoint, AzureKeyCredential(key))

# Анализ счёта
with open("invoice.jpg", "rb") as f:
    poller = client.begin_analyze_document(
        model_id="prebuilt-invoice",
        body=f.read(),
        content_type="application/octet-stream"
    )
result = poller.result()

# Доступ к полям
invoice = result.documents[0]
vendor_name = invoice.fields.get("VendorName")
total_amount = invoice.fields.get("InvoiceTotal")

Альтернативы: Google Document AI, AWS Textract, PaddleOCR + LLM extraction для on-premise. Подробнее об OCR.

Классификация и валидация данных

Multi-class классификатор на основе:

Текстового содержимого (TF-IDF / BERT embeddings)
Структурных признаков (наличие таблиц, количество страниц, разделы)
Метаданных (имя файла, источник)

Типичная точность: 96–99% для чётких типов (СФ vs договор vs акт), 88–94% для схожих типов.

Каждое извлечённое поле сопровождается confidence score. При низком confidence (< 0.8) — флаг для ручной проверки. Cross-validation: суммы в прописи и цифрах совпадают? ИНН проходит checksum? Дата логична? Straight-Through Processing rate для высококачественных структурированных документов достигает 85–95%. Экономия времени и денег: автоматизация возврата инвестиций за 6–12 месяцев для среднего бизнеса. Многие клиенты окупают внедрение за 8–10 месяцев.

Результат и пилот

Что входит в готовое решение

API с эндпоинтами для загрузки, обработки и получения данных
Модуль OCR с поддержкой Tesseract, Azure DI или Google DI
Классификатор типов документов (дообучаемая модель)
Извлечение полей с confidence score
Валидация и логирование
Веб-интерфейс для ручной корректировки и мониторинга
Интеграция с 1С, SAP или другой ERP (REST/SOAP/файловый обмен)
Документация и инструкция по эксплуатации
Обучение операторов (2 дня)
Гарантия на pipeline в течение 6 месяцев

Сроки внедрения

Месяц 1: OCR pipeline, классификатор типов документов, базовое извлечение

Месяц 2–3: Обработка приоритетных типов документов, валидация, интеграции с ERP/ECM

Месяц 4: Семантический поиск, UI для ручной корректировки, аналитика

Месяц 5–6: Production hardening, масштабирование, мониторинг качества

Как запустить пилот?

Пилотный проект начинается со сбора выборки из 100–200 типичных документов (сканы, PDF, XML). За 1–2 дня мы оцениваем архитектуру и точность извлечения, готовим предварительный сметный расчёт. После согласования запускается полный pipeline — от OCR до интеграции. Первые результаты видны через 2–3 месяца. Затем дорабатываем все типы документов, подключаем ERP, обучаем операторов.

Закажите пилотный проект для оценки эффективности на ваших документах. Свяжитесь с нами — мы подготовим предварительную архитектуру за 1–2 дня и оценим проект. Получите консультацию по интеграции Document AI в вашу инфраструктуру.

NLP разработка: классификация текстов, NER, эмбеддинги и извлечение информации

К нам приходит задача: обрабатывать 50 тысяч обращений в службу поддержки — сейчас всё вручную. Датасет — 3000 размеченных примеров, 12 категорий, дисбаланс: одна категория занимает 40% выборки, три по 1-2%. Baseline accuracy — 78%. Звучит неплохо, пока не смотришь на recall по редким классам: 0.31, 0.44, 0.28. Именно эти классы — жалобы и угрозы оттока — важнее всего бизнесу.

Это типичный проект NLP разработки. Проблема не в алгоритме, а в том, что accuracy — не та метрика. Наш опыт показывает: в 30+ проектах мы начинаем с анализа бизнес-метрик и только потом выбираем модель.

Почему accuracy — не та метрика для редких классов?

Accuracy игнорирует дисбаланс. Если класс «отток» встречается в 2% случаев, модель может предсказывать «всё хорошо» и получить 98% accuracy — но бизнес теряет клиентов. Решение: F1 macro (усреднение по всем классам) или weighted F1. Для NER — strict entity F1 (только точные совпадения). Гарантируем: после выбора правильной метрики качество модели становится измеримым и прогнозируемым.

Классификация текста: от BERT до дистилляции

BERT-подобные модели — стандарт для классификации. ruBERT-base или ruBERT-large от DeepPavlov для русского языка. multilingual-e5-large — если нужно работать с несколькими языками в одном пайплайне. XLM-RoBERTa-large — сильный multilingual backbone.

Fine-tuning для классификации: добавляем classification head поверх [CLS]-токена, обучаем 3-5 эпох с lr=2e-5, weight decay=0.01. При дисбалансе — weighted CrossEntropyLoss или focal loss с gamma=2.0. Пишите — покажем code snippet.

Кейс с дисбалансом. Датасет — 3000 примеров, дисбаланс 1:20. Решение: class_weight через sklearn + CrossEntropyLoss. Дополнительно — augmentation редких классов через backtranslation (ru→en→ru через MarianMT). Recall по редким классам вырос с 0.31 до 0.67 при незначительном падении accuracy (76%→74%). Полная NLP разработка под ключ заняла 3 недели.

Дистилляция для production. BERT-large даёт F1 0.89, но inference на CPU — 180ms. Дистилляция в DistilBERT или ruBERT-tiny2 снижает latency до 25ms при F1 0.84. Экспорт в ONNX Runtime даёт дополнительный 1.5-2x. Оценим проект — рассчитаем экономию на инфраструктуре.

Модель	F1 macro	Latency (CPU)	Размер
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

NER: распознавание именованных сущностей

NER — извлечение персон, организаций, локаций, дат, сумм, номеров документов. Для общих категорий (PER, ORG, LOC) предобученные модели работают хорошо. Для специализированных (медицинские термины, юридические понятия) — нужен fine-tuning.

Разметка данных. Основная стоимость NER-проекта. Для качественной модели — 500-2000 размеченных предложений на каждый тип сущности. Инструменты: Label Studio (open source) или Prodigy (от создателей spaCy). Формат IOB2 — стандарт.

Архитектура. Token classification поверх BERT: каждому токену метка (B-PER, I-PER, O). spaCy 3.x с transformer pipeline — удобный production-выбор.

Вложенные сущности. Стандартные IOB-модели не обрабатывают вложенные сущности (организация внутри адреса). Для таких задач — span-based NER: SpanBERT или SpERT. Сложнее, но правильно.

Постобработка обязательна. Модель предсказывает токены — нужны нормализованные сущности. Дата — dateparser. Суммы — regex + валидация. Имена — дедупликация через rapidfuzz. Входит в нашу стандартную поставку.

Sentiment Analysis и opinion mining

Бинарная классификация positive/negative работает с BERT из коробки. Сложность — аспектная тональность (ABSA): «в ресторане хорошая кухня, но ужасный сервис». Для ABSA: aspect extraction (NER) + sentiment по каждому аспекту. Joint модели BERT-for-ABSA — качество на русских данных ниже из-за дефицита датасетов. RuSentiment, SentiRuEval — основные ресурсы.

Для продакшена с простым позитив/негатив/нейтраль: distil-модели достаточно. Три класса, balanced датасет, 2000+ примеров — F1 macro 0.82-0.87 за 1-2 дня.

Суммаризация текста

Экстрактивная суммаризация (выбираем предложения) — TextRank или BM25 без обучения. Быстро, не галлюцинирует. Хорошо для длинных документов.

Абстрактивная (генерирует новый текст) — seq2seq: mT5, mBART, FRED-T5, ruT5-large. Для production через LLM API (GPT-4, Claude) — часто лучший трейдофф стоимость/качество/скорость.

Эмбеддинги: векторные представления текста

Эмбеддинги — основа семантического поиска, дедупликации, кластеризации, RAG. Качество критически влияет на downstream задачи.

Модели. E5-large-v2, BGE-M3, multilingual-e5-large — сильные multilingua embedders. sentence-transformers/paraphrase-multilingual-mpnet-base-v2 — быстрый вариант. Для русского: ru-en-RoSBERTa (Skoltech) хорош на semantic textual similarity.

Как оценить качество эмбеддингов? MTEB benchmark — стандарт. Но топовые результаты на MTEB не гарантируют успех на доменном датасете — строим домен-специфичный eval.

Fine-tuning эмбеддингов. Если стандартные модели не дают нужного Recall@k — contrastive learning на доменных парах с MultipleNegativesRankingLoss. 500-2000 пар, 1-3 эпохи — 5-15% прирост Recall@k.

Размерность и хранение. E5-large: 1024 dim, float32 — 4KB на вектор. При 10M документов — 40GB. Квантизация int8 снижает до 10GB. FAISS IVF_PQ — ещё компактнее, но с потерями. Входит в наши рекомендации по деплою.

Извлечение информации

Структурированное извлечение — одна из частых задач. Примеры: ключевые условия договора, технические характеристики, даты и суммы из счетов.

Regex + rule-based. Для ИНН, ОГРН, сумм, дат — надёжнее нейросети. Не требует данных.
NER + постобработка. Для вариативных форматов.
LLM с structured output. GPT-4 / Claude с JSON schema — для сложных документов. Стоимость: ~$0.001-0.01 на документ. Для 10k+ документов/день — считаем экономику.

Гарантируем гибрид: regex/NER для типовых полей + LLM для edge cases. Сертификат доверия: 5 лет на рынке, >30 проектов.

Этапы работы

Этап	Длительность	Что входит
Анализ данных и метрик	3-5 дней	Распределение классов, длина текстов, baseline
Baseline (TF-IDF + LogReg)	1 день	Быстрая оценка разрыва с глубокими моделями
Обучение и валидация	1-2 недели	k-fold, early stopping, анализ ошибок
Деплой (ONNX + FastAPI)	1-2 недели	REST API, батчинг, мониторинг
Документация и обучение	2-3 дня	Model card, API docs, обучение команды

Прототип на существующих данных — 1-3 недели. Production-система с CI/CD — 1.5-2.5 месяца. Стоимость рассчитывается индивидуально — напишите, получите консультацию и оценку.

Что входит в работу

Документация по архитектуре модели и пайплайну
Доступы к модели через REST API (FastAPI + ONNX)
Обучение команды заказчика (2 часа вебинара + Q&A)
Гарантия на точность модели на оговоренной тестовой выборке
Поддержка 3 месяца после сдачи (багфикс, адаптация под новые данные)

Наш опыт

Более 5 лет в NLP, 30+ проектов от классификации до RAG-систем. Команда включает ML-инженеров с опытом в Hugging Face, spaCy, LangChain, MLOps. Используем vLLM, Kubeflow, Weights & Biases — продакшен-стек, а не игрушки. Пишите — оценим проект за 2 дня.