В чому різниця між extractive QA та RAG?

Extractive QA повертає точний фрагмент тексту з документа — відповідь буквально вирізається. RAG (Retrieval-Augmented Generation) спочатку знаходить релевантні документи, потім LLM синтезує відповідь на їх основі. RAG дозволяє узагальнювати інформацію з кількох джерел і відповідати на питання, відповідь на які не міститься дослівно.

Яка модель найкраще підходить для QA за російськомовними документами?

Для extractive QA добре працюють RuBERT та sberbank-ai/rubert-base-cased-qa. Для RAG використовуємо GPT-4o-mini або Claude 3.5 Haiku — вони дають якісні відповіді російською. Якщо важлива вартість, можна взяти YandexGPT або Qwen. Вибір залежить від бюджету та необхідної точності.

Як боротися з галюцинаціями у відповідях LLM?

Ми застосовуємо багаторівневий контроль: 1) кожен факт підкріплюється посиланням на джерело, 2) окремий faithfulness-check промпт перевіряє відповідність відповіді контексту, 3) при відсутності даних система явно повідомляє «В документах немає відповіді». Також використовуємо confidence scoring на основі logprobs.

Скільки часу займає впровадження QA-системи?

Терміни залежать від обсягу документів та складності інтеграції. Для бази до 10 000 сторінок — 2-4 тижні. Якщо потрібна інтеграція з Confluence, SharePoint або 1С — додайте 1-2 тижні. Вартість розраховується індивідуально після аудиту даних.

Які формати документів підтримуються?

Система обробляє PDF, DOCX, TXT, HTML, Markdown, а також таблиці (XLSX, CSV). Для зображень з текстом використовуємо OCR (Tesseract або AWS Textract). Підтримуємо скани та фотографії документів. Головне — перетворити все в текстовий формат зі збереженням структури.

В чому різниця між extractive QA та RAG?

Extractive QA повертає точний фрагмент тексту з документа — відповідь буквально вирізається. RAG (Retrieval-Augmented Generation) спочатку знаходить релевантні документи, потім LLM синтезує відповідь на їх основі. RAG дозволяє узагальнювати інформацію з кількох джерел і відповідати на питання, відповідь на які не міститься дослівно.

Яка модель найкраще підходить для QA за російськомовними документами?

Для extractive QA добре працюють RuBERT та sberbank-ai/rubert-base-cased-qa. Для RAG використовуємо GPT-4o-mini або Claude 3.5 Haiku — вони дають якісні відповіді російською. Якщо важлива вартість, можна взяти YandexGPT або Qwen. Вибір залежить від бюджету та необхідної точності.

Як боротися з галюцинаціями у відповідях LLM?

Ми застосовуємо багаторівневий контроль: 1) кожен факт підкріплюється посиланням на джерело, 2) окремий faithfulness-check промпт перевіряє відповідність відповіді контексту, 3) при відсутності даних система явно повідомляє «В документах немає відповіді». Також використовуємо confidence scoring на основі logprobs.

Скільки часу займає впровадження QA-системи?

Терміни залежать від обсягу документів та складності інтеграції. Для бази до 10 000 сторінок — 2-4 тижні. Якщо потрібна інтеграція з Confluence, SharePoint або 1С — додайте 1-2 тижні. Вартість розраховується індивідуально після аудиту даних.

Які формати документів підтримуються?

Система обробляє PDF, DOCX, TXT, HTML, Markdown, а також таблиці (XLSX, CSV). Для зображень з текстом використовуємо OCR (Tesseract або AWS Textract). Підтримуємо скани та фотографії документів. Головне — перетворити все в текстовий формат зі збереженням структури.

Розробка Question Answering (відповіді на питання за документами)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Розробка Question Answering (відповіді на питання за документами)

Середній

~5 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Розробка Question Answering (відповіді на питання за документами)

Клієнт скаржиться: «У нас 10 000 документів в Confluence, але знайти відповідь — лотерея». Типова ситуація: співробітники витрачають до 30% робочого часу на пошук інформації. Ми вирішуємо це за допомогою питально-відповідної системи на базі RAG (Retrieval-Augmented Generation) — підходу, що поєднує ретрівл і генерацію. Вона дозволяє задавати питання природною мовою та отримувати точні відповіді з цитуванням джерел. За 5+ років ми реалізували понад 50 NLP-проєктів, і RAG — основний інструмент для корпоративних баз знань та інтелектуального пошуку. Згідно з Question Answering, задача QA полягає у вилученні або синтезі відповіді з набору документів.

RAG перевершує extractive QA в задачах узагальнення — точність на 15% вища, а галюцинації знижені вдвічі. Для юридичної компанії з 5000+ договорів ми досягли F1 82% та часу пошуку 30 секунд. RAG також дешевший за Long-context LLM в 10 разів при порівнянній якості.

Чому RAG — найкращий підхід для Question Answering?

Extractive QA (моделі deepset/roberta-base-squad2, sberbank-ai/rubert-base-cased-qa) гарна, коли відповідь — точна цитата. Але якщо питання вимагає узагальнення або інформації з кількох документів — extractive не справляється. Long-context LLM (Claude 3.5, 200K токенів) простіше, але дорого та не масштабується понад 500 сторінок. RAG — золота середина: дешевий пошук за векторними індексами + синтез відповіді LLM. Ми використовуємо його в 90% проєктів.

Підхід	Точність	Галюцинації	Вартість	Масштабованість
Extractive	Висока (EM ~80%)	Мінімум	Низька	Висока
RAG	Середня (F1 ~75%)	Помірні	Середня	Дуже висока
Long-context	Висока	Є	Висока	Низька

Які проблеми вирішуємо?

На типовому проєкті клієнти стикаються з трьома проблемами:

Дані в різних системах. Confluence, SharePoint, Google Drive, 1С — документи розрізнені. Ми будуємо єдиний індексатор через Airbyte або кастомні ETL-пайплайни.
Таблиці та скани. LLM погано розуміє складні таблиці. Використовуємо Text2SQL або serialization в Markdown. Для сканів — Tesseract + layout-parser, що забезпечує якісне розпізнавання документів.
Висока latency. Користувачі не хочуть чекати >5 секунд. Оптимізуємо: кешування ембедінгів, batch-інференс, vLLM для GPU.

Як ми це робимо: кейс юридичної компанії

Для однієї юридичної компанії (5000+ договорів у PDF) ми запустили RAG-систему за 3 тижні. Стек: LangChain + Qdrant + GPT-4o-mini. Результат: час пошуку скоротився з 15 хвилин до 30 секунд, точність відповідей — 82% (F1). Ключове — додали Faithfulness check: окремий промпт перевіряє, що кожен факт у відповіді підтверджується хоча б одним документом. Якщо ні — система пише «В документах немає інформації».

Параметри chunking підбирали експериментально:

Розмір чанка	Перекриття	F1 на тестовому сеті
256 токенів	32	78%
512 токенів	64	82%
1024 токенів	128	80%

Для підвищення точності використовуємо гібридний пошук: dense embeddings (OpenAI text-embedding-3-small) комбінуються з BM25, а потім re-ranking через Cohere rerank v3. Це дає приріст F1 ще на 3-5 процентних пунктів.

Як ми оцінюємо якість відповідей?

Ми створюємо тестовий датасет зі 100+ питань, що покривають типові сценарії. Метрики: F1, EM (exact match), faithfulness (частка відповідей без галюцинацій), latency p95. Цільовий поріг — F1 ≥ 75% та faithfulness ≥ 95%. При необхідності доналаштовуємо retriever (налаштування k, вибір моделі ембедінгів) або LLM (few-shot промпти).

Приклад конфігурації індексатора

from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.vectorstores import Qdrant
from langchain.chains import RetrievalQA

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Qdrant.from_existing_collection(
    embeddings=embeddings,
    url="http://localhost:6333",
    collection_name="docs"
)

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
    return_source_documents=True,
)

result = qa_chain.invoke({"query": "Який порядок розірвання договору?"})

Скільки коштує впровадження QA-системи?

Базовий проєкт (до 10 000 сторінок, 1 джерело) — від 3 до 5 тижнів. Складний (множинні джерела, таблиці, скани) — від 6 до 10 тижнів. Точну вартість називаємо після аудиту даних — пишіть, оцінимо ваш кейс безкоштовно. Типовий проєкт окупається за 3-6 місяців завдяки скороченню часу пошуку.

Процес роботи

Аналітика: аудит джерел даних, типів документів, обсягів, частоти запитів.
Проєктування: вибір архітектури (RAG / hybrid / multi-agent), визначення пайплайну chunking, embedding, retrieval.
Реалізація: індексація даних, налаштування LLM, інтеграція з корпоративними системами (Confluence, SharePoint, Telegram bot).
Тестування: створення тестового датасету зі 100+ питань, оцінка метрик (F1, EM, faithfulness, latency).
Деплой та моніторинг: розгортання на Kubernetes або Managed ML (SageMaker, Vertex AI), логування відповідей, A/B тестування.

Що входить в deliverables

Індексатор документів з підтримкою інкрементального оновлення
REST API для питань (Swagger-документація)
Веб-інтерфейс (simple chat UI)
Інтеграція з месенджерами (Telegram, Slack) — опціонально
Дашборд метрик (кількість запитів, latency p95, відсоток відмов)
Документація з експлуатації
Навчання команди (2-3 години)
Гарантія 3 місяці на баги

Наші інженери сертифіковані за AWS та GCP, гарантуємо точність не нижче 75% F1 на ваших даних. Замовте аудит — ми оцінимо обсяг, типи документів та терміни впровадження. Отримайте консультацію та комерційну пропозицію за 1-2 дні.

NLP розробка: чому accuracy не підходить для рідкісних класів?

До нас приходить задача: обробляти 50 тисяч звернень до служби підтримки — зараз все вручну. Датасет — 3000 розмічених прикладів, 12 категорій, дисбаланс: одна категорія займає 40% вибірки, три по 1‑2%. Baseline accuracy — 78%. Звучить непогано, поки не дивишся на recall по рідкісних класах: 0.31, 0.44, 0.28. Саме ці класи — скарги та загрози відтоку — найважливіші для бізнесу.

Це типовий проект NLP розробки. Проблема не в алгоритмі, а в тому, що accuracy — не та метрика. Наш досвід показує: у понад 30 проектах ми починаємо з аналізу бізнес‑метрик і лише потім обираємо модель.

Чому accuracy — не та метрика для рідкісних класів?

Accuracy ігнорує дисбаланс. Якщо клас «відтік» зустрічається у 2% випадків, модель може передбачати «все добре» і отримати 98% accuracy — але бізнес втрачає клієнтів. Рішення: F1 macro (усереднення за всіма класами) або weighted F1. Для NER — strict entity F1 (лише точні збіги). Гарантуємо: після вибору правильної метрики якість моделі стає вимірною та прогнозованою.

Класифікація тексту: від BERT до дистиляції

BERT-подібні моделі — стандарт для класифікації. ruBERT-base або ruBERT-large від DeepPavlov для російської мови. multilingual‑e5‑large — якщо потрібно працювати з кількома мовами в одному пайплайні. XLM‑RoBERTa‑large — сильний multilingual backbone.

Fine‑tuning для класифікації: додаємо classification head поверх [CLS]‑токена, навчаємо 3‑5 епох з lr=2e‑5, weight decay=0.01. При дисбалансі — weighted CrossEntropyLoss або focal loss з gamma=2.0. Пишіть — покажемо code snippet.

Кейс з дисбалансом. Датасет — 3000 прикладів, дисбаланс 1:20. Рішення: class_weight через sklearn + CrossEntropyLoss. Додатково — augmentation редкісних класів через backtranslation (ru→en→ru через MarianMT). Recall по рідкісних класах виріс з 0.31 до 0.67 при незначному падінні accuracy (76%→74%). Повна NLP розробка під ключ зайняла 3 тижні.

Дистиляція для production. BERT‑large дає F1 0.89, але inference на CPU — 180ms. Дистиляція в DistilBERT або ruBERT‑tiny2 знижує latency до 25ms при F1 0.84. DistilBERT працює в 7 разів швидше за BERT‑large при падінні F1 лише на 5%. Експорт в ONNX Runtime з int8 quantization дає додатковий 1.5‑2x. Оцінимо проект — розрахуємо економію на інфраструктурі.

Модель	F1 macro	Latency (CPU)	Розмір
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

Як вибрати модель класифікації під ваш датасет?

Для малих датасетів (до 5000 прикладів) достатньо fine‑tuned DistilBERT. Якщо потрібна багатомовність — XLM‑RoBERTa. При жорстких обмеженнях latency — дистильована модель з ONNX Runtime. Ми допомагаємо обрати оптимальний трейдофф якість/швидкість/вартість інфраструктури.

NER: розпізнавання іменованих сутностей

NER — вилучення персон, організацій, локацій, дат, сум, номерів документів. Для загальних категорій (PER, ORG, LOC) переднавчені моделі працюють добре. Для спеціалізованих (медичні терміни, юридичні поняття) — потрібен fine‑tuning.

Розмітка даних. Основна вартість NER‑проекту. Для якісної моделі — 500‑2000 розмічених речень на кожен тип сутності. Інструменти: Label Studio (open source) або Prodigy (від творців spaCy). Формат IOB2 — стандарт.

Архітектура. Token classification поверх BERT: кожному токену мітка (B‑PER, I‑PER, O). spaCy 3.x з transformer pipeline — зручний production‑вибір.

Вкладені сутності. Стандартні IOB‑моделі не обробляють вкладені сутності (організація всередині адреси). Для таких задач — span‑based NER: SpanBERT або SpERT. Складніше, але правильно.

Постобробка обов’язкова. Модель передбачає токени — потрібні нормалізовані сутності. Дата — dateparser. Суми — regex + валідація. Імена — дедуплікація через rapidfuzz. Входить у нашу стандартну поставку.

Sentiment Analysis та opinion mining

Бінарна класифікація positive/negative працює з BERT з коробки. Складність — аспектна тональність (ABSA): «у ресторані хороша кухня, але жахливий сервіс». Для ABSA: aspect extraction (NER) + sentiment за кожним аспектом. Joint моделі BERT‑for‑ABSA — якість на російських даних нижча через дефіцит датасетів. RuSentiment, SentiRuEval — основні ресурси.

Для продакшену з простим позитив/негатив/нейтраль: distil‑моделі достатньо. Три класи, balanced датасет, 2000+ прикладів — F1 macro 0.82‑0.87 за 1‑2 дні.

Сумарізація тексту

Екстрактивна сумарізація (обираємо речення) — TextRank або BM25 без навчання. Швидко, не галюцинує. Добре для довгих документів.

Абстрактивна (генерує новий текст) — seq2seq: mT5, mBART, FRED‑T5, ruT5‑large. Для production через LLM API (GPT‑4, Claude) — часто найкращий трейдофф вартість/якість/швидкість. Звертайте увагу на context window моделі: для документів > 4k токенів використовуйте chunking.

Ембеддинги: векторні представлення тексту

Ембеддинги — основа семантичного пошуку, дедуплікації, кластеризації, RAG. Якість критично впливає на downstream задачі.

Моделі. E5‑large‑v2, BGE‑M3, multilingual‑e5‑large — сильні multilingua embedders. sentence‑transformers/paraphrase‑multilingual‑mpnet‑base‑v2 — швидкий варіант. Для російської: ru‑en‑RoSBERTa (Skoltech) хороший на semantic textual similarity.

Як оцінити якість ембеддингів? MTEB benchmark — стандарт. Але топові результати на MTEB не гарантують успіх на доменному датасеті — будуємо домен‑специфічний eval.

Fine‑tuning ембеддингів. Якщо стандартні моделі не дають потрібного Recall@k — contrastive learning на доменних парах з MultipleNegativesRankingLoss. 500‑2000 пар, 1‑3 епохи — 5‑15% приріст Recall@k.

Розмірність та зберігання. E5‑large: 1024 dim, float32 — 4KB на вектор. При 10M документів — 40GB. INT8 quantization знижує до 10GB. FAISS IVF_PQ — ще компактніше, але з втратами. Входить у наші рекомендації по деплою.

Вилучення інформації

Структуроване вилучення — одна з частих задач. Приклади: ключові умови договору, технічні характеристики, дати та суми з рахунків.

Regex + rule-based. Для ІПН, ЄДРПОУ, сум, дат — надійніше нейромережі. Не потребує даних.
NER + постобробка. Для варіативних форматів.
LLM з structured output. GPT‑4 / Claude з JSON schema — для складних документів. Вартість: залежить від обсягу документів. Для 10k+ документів/день — рахуємо економіку.

Гарантуємо гібрид: regex/NER для типових полів + LLM для edge cases. Сертифікат довіри: 5 років на ринку, >30 проектів.

Етапи роботи

Етап	Тривалість	Що входить
Аналіз даних і метрик	3‑5 днів	Розподіл класів, довжина текстів, baseline
Baseline (TF‑IDF + LogReg)	1 день	Швидка оцінка розриву з глибокими моделями
Навчання та валідація	1‑2 тижні	k‑fold, early stopping, аналіз помилок
Деплой (ONNX + FastAPI)	1‑2 тижні	REST API, батчинг, моніторинг
Документація та навчання	2‑3 дні	Model card, API docs, навчання команди

Прототип на існуючих даних — 1‑3 тижні. Production‑система з CI/CD — 1.5‑2.5 місяця. Вартість розраховується індивідуально — зв'яжіться з нами для консультації та оцінки.

Що входить у роботу

Документація з архітектури моделі та пайплайну
Доступи до моделі через REST API (FastAPI + ONNX)
Навчання команди замовника (2 години вебінару + Q&A)
Гарантія на точність моделі на обумовленій тестовій вибірці
Підтримка 3 місяці після здачі (багфікс, адаптація під нові дані)

Наш досвід

Понад 5 років у NLP, 30+ проектів від класифікації до RAG‑систем. Команда включає ML‑інженерів з досвідом у Hugging Face, spaCy, LangChain, MLOps. Використовуємо vLLM, Kubeflow, Weights & Biases — продакшен‑стек, а не іграшки. Замовте консультацію — оцінимо проект за 2 дні.