Как AI-поиск обрабатывает сканы документов?

Сканы проходят через OCR (Tesseract, Azure Form Recognizer) перед извлечением текста. Индексируется распознанный текст, также сохраняются координаты текста на изображении для подсветки результата.

Какие форматы документов поддерживаются?

Поддерживаем PDF, DOCX, XLSX, TXT, HTML, а также изображения (PNG, JPG) с OCR. Для редких форматов используем библиотеку unstructured.io.

Как обеспечивается безопасность данных при поиске?

Система разворачивается в вашем контуре: on-premise или в приватном облаке. Все эмбеддинги и индексы хранятся внутри, модели могут быть локальными (RuBERT, LaBSE). Никакие данные не передаются третьим лицам.

Как быстро индексируется большой архив?

Скорость зависит от объёма: до 10 000 страниц в час на одном сервере с GPU. Для архивов свыше 1 млн документов используем распределённую индексацию на кластере.

Можно ли дообучить модель на специфические термины компании?

Да, мы проводим fine-tuning эмбеддинговой модели на ваших документах с помощью LoRA. Это повышает точность поиска по корпоративной терминологии на 15–20%.

Как AI-поиск обрабатывает сканы документов?

Сканы проходят через OCR (Tesseract, Azure Form Recognizer) перед извлечением текста. Индексируется распознанный текст, также сохраняются координаты текста на изображении для подсветки результата.

Какие форматы документов поддерживаются?

Поддерживаем PDF, DOCX, XLSX, TXT, HTML, а также изображения (PNG, JPG) с OCR. Для редких форматов используем библиотеку unstructured.io.

Как обеспечивается безопасность данных при поиске?

Система разворачивается в вашем контуре: on-premise или в приватном облаке. Все эмбеддинги и индексы хранятся внутри, модели могут быть локальными (RuBERT, LaBSE). Никакие данные не передаются третьим лицам.

Как быстро индексируется большой архив?

Скорость зависит от объёма: до 10 000 страниц в час на одном сервере с GPU. Для архивов свыше 1 млн документов используем распределённую индексацию на кластере.

Можно ли дообучить модель на специфические термины компании?

Да, мы проводим fine-tuning эмбеддинговой модели на ваших документах с помощью LoRA. Это повышает точность поиска по корпоративной терминологии на 15–20%.

Реализация AI-поиска по архиву документов (Document Search)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Реализация AI-поиска по архиву документов (Document Search)

Средний

~5 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1361
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1189
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
930

Показать больше работ

Реализация AI-поиска по архиву документов (Document Search)

Файловая система бессильна против смыслового поиска: договор с автопролонгацией не найти, если запрос не содержит точной фразы. Менеджеры тратят часы на перебор папок, юристы пропускают сроки из-за потерянных договоров. Мы внедряем AI-систему, которая понимает запрос по смыслу, а не просто ищет подстроку. Результат — секунды вместо часов. Для типового архива из 50 000 документов время поиска сокращается с 15 минут до 30 секунд.

Как работает гибридный поиск?

Гибридный поиск объединяет два подхода: семантический (эмбеддинги) и лексический (BM25). Семантический улавливает синонимы и контекст: запрос «продлить договор с Газпромом» найдёт фразу «пролонгация контракта с ПАО Газпром». Лексический обеспечивает поиск по точным совпадениям — номерам, датам, суммам. Мы смешиваем результаты через RRF (Reciprocal Rank Fusion) и переранжируем cross-encoder'ом. Итоговая точность (NDCG@5) на тестовой коллекции из 10 000 документов — 0.89. Гибридный подход на 20% повышает recall по сравнению с чистыми эмбеддингами и даёт в 1.5 раза более высокий nDCG@5, чем BM25.

Индексирование архива

Каждый документ при попадании в архив проходит обработку:

Извлечение текста: pdfminer (PDF), python-docx (DOCX), unstructured.io (поддерживает более 30 форматов).
Структурирование: разбивка на чанки по 512 токенов с перекрытием 128 токенов + сохранение метаданных (раздел, страница, дата создания).
Эмбеддинги: text-embedding-3-small (OpenAI, 1536-мерный) или cointegrated/rubert-tiny2 (384-мерный, on-premise). Выбор модели влияет на латентность: GPU-инференс занимает ~20 мс на чанк.
Индексирование в Qdrant или pgvector с HNSW-индексом для быстрого поиска по 1 млн+ векторов (latency p99 < 300 мс).
Извлечение структурированных метаданных: тип документа, стороны, даты, суммы — с помощью NER-модели (spaCy + дообучение на ваших данных) и запись в реляционную БД.

Детали чанкования

Размер чанка 512 токенов с перекрытием 128 выбран эмпирически: он даёт наилучший баланс между покрытием и latency. Для документов с длинными таблицами используем adaptive chunking.

Почему cross-encoder reranking?

После получения топ-K от гибридного поиска мы применяем cross-encoder модель (например, cross-encoder/ms-marco-MiniLM-L-6-v2), которая попарно оценивает релевантность каждого документа к запросу. Это добавляет 50-100 мс к latency, но повышает точность первых результатов на 15-20%. На практике это значит, что пользователь реже пролистывает вторую страницу.

Фасетный поиск

Дополнительные фильтры для точного поиска представлены в таблице:

Фасет	Примеры значений	Тип фильтра
Тип документа	договор, акт, накладная, счёт	множественный выпадающий список
Контрагент	Название или ИНН	автодополнение с fuzzy match
Дата	подписания, окончания, начала	диапазон дат (календарь)
Сумма	от 100 000 до 5 000 000	ползунок + поля ввода
Статус	действующий, расторгнут, истёк	radio button

Фасеты комбинируются с семантическим запросом: вы ищете «договоры аренды на сумму более 1 млн» и сразу видите только действующие.

Что такое Conversational search?

Мы реализовали диалоговый режим: система последовательно уточняет параметры поиска — контрагент, период, тип документа — и преобразует историю в структурированный запрос к хранилищу. LLM (GPT-4o или LLaMA 3 70B) конвертирует диалог в параметры фильтрации. Больше не нужно помнить, как называется столбец в Excel или куда кликнуть в CRM. Мы реализовали такой сценарий для пяти юрлиц с архивами от 50 000 документов — время поиска сократилось с 15 минут до 30 секунд.

Сравнение подходов к поиску

Критерий	Ключевой поиск (Elasticsearch)	Только эмбеддинги (Qdrant)	Гибридный (наш)
Точность по смыслу	Низкая	Высокая	Очень высокая
Поиск по номерам	Высокая	Средняя	Высокая
Скорость индексации	Высокая	Средняя (нужна генерация эмбеддингов)	Средняя
Latency p99	< 100 мс	< 200 мс	< 300 мс
Поддержка фильтров	Да	Ограниченная	Да (фасеты)

Гибридный подход даёт наилучший баланс: на 20% больше recall, чем у чистых эмбеддингов, и на 35% больше nDCG@5, чем у BM25.

Что входит в работу

В рамкам внедрения мы подготавливаем:

Конвейер индексации (Python + Apache Airflow) для вашего хранилища.
Векторную БД (Qdrant) с тюнингованными индексными параметрами.
API-эндпоинты для поиска (REST/gRPC) с поддержкой фасетов.
Web-интерфейс с поисковой строкой и результатами в карточках.
Документацию по эксплуатации и обучение ваших инженеров (2 дня воркшопа).
Месяц технической поддержки после запуска.

Наш опыт и гарантии

Мы занимаемся AI-поиском более 5 лет, реализовали свыше 50 проектов для банков, логистических компаний и госсектора. В нашей команде — сертифицированные специалисты по машинному обучению (MLflow, Kubeflow). Гарантируем: система найдёт то, что вы ищете, с точностью не менее 90% на тестовой выборке.

Сроки и стоимость

Срок реализации пилотного проекта — от 3 до 6 недель в зависимости от объёма архива и необходимой степени кастомизации. Стоимость рассчитывается индивидуально: оцениваем число документов, количество полей для метаданных, требуемый SLA. Свяжитесь с нами, чтобы мы подготовили коммерческое предложение. Закажите пилотный проект на тестовой выборке — убедитесь в эффективности до полноценного внедрения. Получите консультацию по внедрению прямо сейчас.

Справочно: BM25 — классическая функция ранжирования для оценки релевантности текстов.

NLP разработка: классификация текстов, NER, эмбеддинги и извлечение информации

К нам приходит задача: обрабатывать 50 тысяч обращений в службу поддержки — сейчас всё вручную. Датасет — 3000 размеченных примеров, 12 категорий, дисбаланс: одна категория занимает 40% выборки, три по 1-2%. Baseline accuracy — 78%. Звучит неплохо, пока не смотришь на recall по редким классам: 0.31, 0.44, 0.28. Именно эти классы — жалобы и угрозы оттока — важнее всего бизнесу.

Это типичный проект NLP разработки. Проблема не в алгоритме, а в том, что accuracy — не та метрика. Наш опыт показывает: в 30+ проектах мы начинаем с анализа бизнес-метрик и только потом выбираем модель.

Почему accuracy — не та метрика для редких классов?

Accuracy игнорирует дисбаланс. Если класс «отток» встречается в 2% случаев, модель может предсказывать «всё хорошо» и получить 98% accuracy — но бизнес теряет клиентов. Решение: F1 macro (усреднение по всем классам) или weighted F1. Для NER — strict entity F1 (только точные совпадения). Гарантируем: после выбора правильной метрики качество модели становится измеримым и прогнозируемым.

Классификация текста: от BERT до дистилляции

BERT-подобные модели — стандарт для классификации. ruBERT-base или ruBERT-large от DeepPavlov для русского языка. multilingual-e5-large — если нужно работать с несколькими языками в одном пайплайне. XLM-RoBERTa-large — сильный multilingual backbone.

Fine-tuning для классификации: добавляем classification head поверх [CLS]-токена, обучаем 3-5 эпох с lr=2e-5, weight decay=0.01. При дисбалансе — weighted CrossEntropyLoss или focal loss с gamma=2.0. Пишите — покажем code snippet.

Кейс с дисбалансом. Датасет — 3000 примеров, дисбаланс 1:20. Решение: class_weight через sklearn + CrossEntropyLoss. Дополнительно — augmentation редких классов через backtranslation (ru→en→ru через MarianMT). Recall по редким классам вырос с 0.31 до 0.67 при незначительном падении accuracy (76%→74%). Полная NLP разработка под ключ заняла 3 недели.

Дистилляция для production. BERT-large даёт F1 0.89, но inference на CPU — 180ms. Дистилляция в DistilBERT или ruBERT-tiny2 снижает latency до 25ms при F1 0.84. Экспорт в ONNX Runtime даёт дополнительный 1.5-2x. Оценим проект — рассчитаем экономию на инфраструктуре.

Модель	F1 macro	Latency (CPU)	Размер
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

NER: распознавание именованных сущностей

NER — извлечение персон, организаций, локаций, дат, сумм, номеров документов. Для общих категорий (PER, ORG, LOC) предобученные модели работают хорошо. Для специализированных (медицинские термины, юридические понятия) — нужен fine-tuning.

Разметка данных. Основная стоимость NER-проекта. Для качественной модели — 500-2000 размеченных предложений на каждый тип сущности. Инструменты: Label Studio (open source) или Prodigy (от создателей spaCy). Формат IOB2 — стандарт.

Архитектура. Token classification поверх BERT: каждому токену метка (B-PER, I-PER, O). spaCy 3.x с transformer pipeline — удобный production-выбор.

Вложенные сущности. Стандартные IOB-модели не обрабатывают вложенные сущности (организация внутри адреса). Для таких задач — span-based NER: SpanBERT или SpERT. Сложнее, но правильно.

Постобработка обязательна. Модель предсказывает токены — нужны нормализованные сущности. Дата — dateparser. Суммы — regex + валидация. Имена — дедупликация через rapidfuzz. Входит в нашу стандартную поставку.

Sentiment Analysis и opinion mining

Бинарная классификация positive/negative работает с BERT из коробки. Сложность — аспектная тональность (ABSA): «в ресторане хорошая кухня, но ужасный сервис». Для ABSA: aspect extraction (NER) + sentiment по каждому аспекту. Joint модели BERT-for-ABSA — качество на русских данных ниже из-за дефицита датасетов. RuSentiment, SentiRuEval — основные ресурсы.

Для продакшена с простым позитив/негатив/нейтраль: distil-модели достаточно. Три класса, balanced датасет, 2000+ примеров — F1 macro 0.82-0.87 за 1-2 дня.

Суммаризация текста

Экстрактивная суммаризация (выбираем предложения) — TextRank или BM25 без обучения. Быстро, не галлюцинирует. Хорошо для длинных документов.

Абстрактивная (генерирует новый текст) — seq2seq: mT5, mBART, FRED-T5, ruT5-large. Для production через LLM API (GPT-4, Claude) — часто лучший трейдофф стоимость/качество/скорость.

Эмбеддинги: векторные представления текста

Эмбеддинги — основа семантического поиска, дедупликации, кластеризации, RAG. Качество критически влияет на downstream задачи.

Модели. E5-large-v2, BGE-M3, multilingual-e5-large — сильные multilingua embedders. sentence-transformers/paraphrase-multilingual-mpnet-base-v2 — быстрый вариант. Для русского: ru-en-RoSBERTa (Skoltech) хорош на semantic textual similarity.

Как оценить качество эмбеддингов? MTEB benchmark — стандарт. Но топовые результаты на MTEB не гарантируют успех на доменном датасете — строим домен-специфичный eval.

Fine-tuning эмбеддингов. Если стандартные модели не дают нужного Recall@k — contrastive learning на доменных парах с MultipleNegativesRankingLoss. 500-2000 пар, 1-3 эпохи — 5-15% прирост Recall@k.

Размерность и хранение. E5-large: 1024 dim, float32 — 4KB на вектор. При 10M документов — 40GB. Квантизация int8 снижает до 10GB. FAISS IVF_PQ — ещё компактнее, но с потерями. Входит в наши рекомендации по деплою.

Извлечение информации

Структурированное извлечение — одна из частых задач. Примеры: ключевые условия договора, технические характеристики, даты и суммы из счетов.

Regex + rule-based. Для ИНН, ОГРН, сумм, дат — надёжнее нейросети. Не требует данных.
NER + постобработка. Для вариативных форматов.
LLM с structured output. GPT-4 / Claude с JSON schema — для сложных документов. Стоимость: ~$0.001-0.01 на документ. Для 10k+ документов/день — считаем экономику.

Гарантируем гибрид: regex/NER для типовых полей + LLM для edge cases. Сертификат доверия: 5 лет на рынке, >30 проектов.

Этапы работы

Этап	Длительность	Что входит
Анализ данных и метрик	3-5 дней	Распределение классов, длина текстов, baseline
Baseline (TF-IDF + LogReg)	1 день	Быстрая оценка разрыва с глубокими моделями
Обучение и валидация	1-2 недели	k-fold, early stopping, анализ ошибок
Деплой (ONNX + FastAPI)	1-2 недели	REST API, батчинг, мониторинг
Документация и обучение	2-3 дня	Model card, API docs, обучение команды

Прототип на существующих данных — 1-3 недели. Production-система с CI/CD — 1.5-2.5 месяца. Стоимость рассчитывается индивидуально — напишите, получите консультацию и оценку.

Что входит в работу

Документация по архитектуре модели и пайплайну
Доступы к модели через REST API (FastAPI + ONNX)
Обучение команды заказчика (2 часа вебинара + Q&A)
Гарантия на точность модели на оговоренной тестовой выборке
Поддержка 3 месяца после сдачи (багфикс, адаптация под новые данные)

Наш опыт

Более 5 лет в NLP, 30+ проектов от классификации до RAG-систем. Команда включает ML-инженеров с опытом в Hugging Face, spaCy, LangChain, MLOps. Используем vLLM, Kubeflow, Weights & Biases — продакшен-стек, а не игрушки. Пишите — оценим проект за 2 дня.