Чим семантичний пошук відрізняється від повнотекстового?

Повнотекстовий пошук (BM25) шукає точний збіг ключових слів. Семантичний пошук розуміє сенс: запит «як підвищити мотивацію» знайде документ «методи управління персоналом» без спільних слів.

Скільки часу займає впровадження семантичного пошуку?

Базове впровадження для корпусу до 100 тис. документів займає від 2 до 4 тижнів. Складні проекти з кастомною моделлю та MLOps — від 1 до 3 місяців.

Які метрики використовувати для оцінки якості?

Основні метрики: NDCG@10 (ранжування), MAP (середня точність), MRR (перший релевантний). Для оцінки потрібен набір запитів з розміткою релевантності. Ми допомагаємо сформувати qrels та автоматизуємо оцінку за допомогою LLM.

З якими даними працює семантичний пошук?

Підтримуються будь-які текстові формати: PDF, DOCX, HTML, Markdown, бази даних. Ми попередньо обробляємо текст: очищення, лематизація, розбиття на чанки. Для мультимодальних даних додаємо OCR та ембеддінги зображень.

Чим семантичний пошук відрізняється від повнотекстового?

Повнотекстовий пошук (BM25) шукає точний збіг ключових слів. Семантичний пошук розуміє сенс: запит «як підвищити мотивацію» знайде документ «методи управління персоналом» без спільних слів.

Скільки часу займає впровадження семантичного пошуку?

Базове впровадження для корпусу до 100 тис. документів займає від 2 до 4 тижнів. Складні проекти з кастомною моделлю та MLOps — від 1 до 3 місяців.

Які метрики використовувати для оцінки якості?

Основні метрики: NDCG@10 (ранжування), MAP (середня точність), MRR (перший релевантний). Для оцінки потрібен набір запитів з розміткою релевантності. Ми допомагаємо сформувати qrels та автоматизуємо оцінку за допомогою LLM.

З якими даними працює семантичний пошук?

Підтримуються будь-які текстові формати: PDF, DOCX, HTML, Markdown, бази даних. Ми попередньо обробляємо текст: очищення, лематизація, розбиття на чанки. Для мультимодальних даних додаємо OCR та ембеддінги зображень.

Реалізація семантичного пошуку по текстових документах

Q: Яку модель ембеддінгів вибрати для російської мови?

Для production рекомендуємо `intfloat/multilingual-e5-large` або `cointegrated/rubert-tiny2` для балансу швидкості та якості. Для максимальної точності — `sbert-base-ru-mean-tokens`. Ми підбираємо модель під вашу предметну область та обсяг корпусу.

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Реалізація семантичного пошуку по текстових документах

Середній

~3-5 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Реалізація семантичного пошуку по текстових документах

Стандартний повнотекстовий пошук (BM25) не справляється з синонімами, перефразуваннями та помилками. Запит «як підвищити мотивацію команди» знаходить документи про «методи управління персоналом» — без жодного збігу за словами. Це принципово інша архітектура, що потребує векторних представлень та ANN-індексів. Ми реалізуємо такі системи під ключ, починаючи з аудиту даних і закінчуючи деплоєм у продакшен. Вартість таких проектів варіюється від $10,000 до $50,000 залежно від обсягу корпусу та складності. Докладніше про концепцію можна прочитати в статті про семантичний пошук.

Семантичний пошук: архітектура та порівняння моделей

Bi-encoder — основний робочий режим: окремі моделі кодують запит і документи в загальний векторний простір. Пошук зводиться до знаходження найближчих векторів через ANN (Approximate Nearest Neighbor). Cross-encoder працює на етапі reranking: приймає пару «запит+документ» і видає точний score релевантності. Bi-encoder швидший за cross-encoder в 10 разів (10 мс проти 100 мс на 1M документів), але cross-encoder перевершує bi-encoder в точності в 1.2 рази за NDCG@10. Комбінація bi-encoder (retrieve) + cross-encoder (rerank) — стандарт production-систем. Згідно з роботою Reimers & Gurevych (2019), такий дует значно перевершує кожен з методів окремо.

Порівняємо основні підходи до ембеддінгів:

Параметр	Bi-encoder	Cross-encoder
Швидкість на 1M документів	<10 мс	>100 мс (для топ-100)
Точність (NDCG@10)	0.75-0.85	0.90-0.95
Застосування	Первинний пошук	Переранжування топ-K

Яку модель ембеддінгів вибрати?

Для російської мови ми використовуємо cointegrated/rubert-tiny2 як baseline — швидкий, компактний (312-вимірний вектор). Для максимальної якості — intfloat/multilingual-e5-large або sbert-base-ru-mean-tokens (768-вимірний вектор). Fine-tuning на ваших даних дає приріст 5-10% за NDCG. Ми підбираємо модель під обсяг корпусу та latency requirements (p99 до 100 мс).

from sentence_transformers import SentenceTransformer, CrossEncoder

# Bi-encoder
bi_encoder = SentenceTransformer("cointegrated/rubert-tiny2")
# Для лучшего качества: "intfloat/multilingual-e5-large"

# Cross-encoder
cross_encoder = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")
# Для русского: "DiTy/cross-encoder-russian-msmarco"

Qdrant vs FAISS: що обрати для продакшену?

Qdrant — production-grade, підтримує гібридний пошук, фільтри, реплікацію. Рекомендуємо для корпоративних рішень. FAISS — in-memory індекс, не потребує окремого сервісу. Ідеальний для прототипів та малих корпусів (< 1M векторів).

Характеристика	Qdrant	FAISS
Тип	Зовнішня БД	In-memory індекс
Гібридний пошук	Вбудований	Потребує доопрацювання
Latency p99 (1M векторів)	< 10 мс	< 5 мс
Масштабування	Кластер/шардинг	Однопотоковий

Приклад індексування в Qdrant:

from qdrant_client import QdrantClient
from qdrant_client.models import Distance, VectorParams, PointStruct

client = QdrantClient("localhost", port=6333)
client.create_collection(
    collection_name="documents",
    vectors_config=VectorParams(size=312, distance=Distance.COSINE),
)

embeddings = bi_encoder.encode(documents, batch_size=64, show_progress_bar=True)
client.upload_points("documents", [
    PointStruct(id=i, vector=emb.tolist(), payload={"text": doc})
    for i, (emb, doc) in enumerate(zip(embeddings, documents))
])

Гібридний пошук: переваги та реалізація

Семантичний пошук + BM25 перевершують кожен з методів окремо. BM25 ловить точні збіги (номери, унікальні терміни), а ембеддінги — смислові близькі. Гібридний підхід покращує NDCG@10 у 2-3 рази порівняно з чистим BM25. Ми використовуємо RRF (Reciprocal Rank Fusion) для об'єднання результатів.

from rank_bm25 import BM25Okapi
bm25 = BM25Okapi([doc.split() for doc in corpus])
semantic_scores = cosine_similarity([query_emb], doc_embeddings)[0]

def rrf(bm25_ranks, semantic_ranks, k=60):
    scores = {}
    for rank, idx in enumerate(bm25_ranks):
        scores[idx] = scores.get(idx, 0) + 1/(k + rank)
    for rank, idx in enumerate(semantic_ranks):
        scores[idx] = scores.get(idx, 0) + 1/(k + rank)
    return sorted(scores, key=scores.get, reverse=True)

Оцінка якості пошуку за допомогою метрик

Для оцінки якості використовуємо метрики ранжування: NDCG@10 (нормалізований дисконтований кумулятивний виграш з урахуванням порядку), MAP (середня точність за всіма запитами), MRR (обернений ранг першого релевантного результату). Для обчислення потрібен qrels (набір запитів з релевантністю). Ми автоматизуємо його створення: LLM генерує питання для кожного документа, сам документ — «золотий» відповідь. Це дає репрезентативну вибірку для метрик.

Процес впровадження та терміни

Аудит даних: обсяг, формат, мова, специфічні терміни. Попередня обробка включає очищення, лематизацію та чанкінг (розмір чанка ~512 токенів з overlap 128).
Вибір архітектури: bi-encoder + cross-encoder, гібрид, кастомна модель. Для великих корпусів (>10M документів) застосовуємо кластеризацію Qdrant з шардуванням.
Розробка пайплайну: чанкінг, ембеддінг, індексування з моніторингом latency p99.
Налаштування та деплой: кластер Qdrant (Helm-чарти), A/B тестування, канарейковий rollout.
Передача документації, навчання команди (2 сесії по 2 години), гарантія 3 місяці.

Терміни: від 2 тижнів для прототипу, від 2 місяців для production-рішення. Вартість розраховується індивідуально — зв'яжіться з нами для безкоштовної оцінки.

Що входить у результат

Розгорнута архітектурна документація.
Вихідний код пайплайну з коментарями.
Інтеграція з вашою інфраструктурою (Elasticsearch, БД, хмари).
Деплой з Helm-чартами та CI/CD.
Навчання команди (2 сесії по 2 години).
Підтримка на етапі промислової експлуатації (1 місяць).

Чому довіряють нам

Нам довіряють завдяки 5-річному досвіду та 20+ реалізованим проектам. Всі рішення покриті unit-тестами та benchmarks. Наші інженери — автори open-source інструментів для ембеддінгів та ANN. Отримайте консультацію щодо вашого проекту — ми оцінимо завдання за 1 день. Замовте пілотний проект, щоб побачити результат на ваших даних.

NLP розробка: чому accuracy не підходить для рідкісних класів?

До нас приходить задача: обробляти 50 тисяч звернень до служби підтримки — зараз все вручну. Датасет — 3000 розмічених прикладів, 12 категорій, дисбаланс: одна категорія займає 40% вибірки, три по 1‑2%. Baseline accuracy — 78%. Звучить непогано, поки не дивишся на recall по рідкісних класах: 0.31, 0.44, 0.28. Саме ці класи — скарги та загрози відтоку — найважливіші для бізнесу.

Це типовий проект NLP розробки. Проблема не в алгоритмі, а в тому, що accuracy — не та метрика. Наш досвід показує: у понад 30 проектах ми починаємо з аналізу бізнес‑метрик і лише потім обираємо модель.

Чому accuracy — не та метрика для рідкісних класів?

Accuracy ігнорує дисбаланс. Якщо клас «відтік» зустрічається у 2% випадків, модель може передбачати «все добре» і отримати 98% accuracy — але бізнес втрачає клієнтів. Рішення: F1 macro (усереднення за всіма класами) або weighted F1. Для NER — strict entity F1 (лише точні збіги). Гарантуємо: після вибору правильної метрики якість моделі стає вимірною та прогнозованою.

Класифікація тексту: від BERT до дистиляції

BERT-подібні моделі — стандарт для класифікації. ruBERT-base або ruBERT-large від DeepPavlov для російської мови. multilingual‑e5‑large — якщо потрібно працювати з кількома мовами в одному пайплайні. XLM‑RoBERTa‑large — сильний multilingual backbone.

Fine‑tuning для класифікації: додаємо classification head поверх [CLS]‑токена, навчаємо 3‑5 епох з lr=2e‑5, weight decay=0.01. При дисбалансі — weighted CrossEntropyLoss або focal loss з gamma=2.0. Пишіть — покажемо code snippet.

Кейс з дисбалансом. Датасет — 3000 прикладів, дисбаланс 1:20. Рішення: class_weight через sklearn + CrossEntropyLoss. Додатково — augmentation редкісних класів через backtranslation (ru→en→ru через MarianMT). Recall по рідкісних класах виріс з 0.31 до 0.67 при незначному падінні accuracy (76%→74%). Повна NLP розробка під ключ зайняла 3 тижні.

Дистиляція для production. BERT‑large дає F1 0.89, але inference на CPU — 180ms. Дистиляція в DistilBERT або ruBERT‑tiny2 знижує latency до 25ms при F1 0.84. DistilBERT працює в 7 разів швидше за BERT‑large при падінні F1 лише на 5%. Експорт в ONNX Runtime з int8 quantization дає додатковий 1.5‑2x. Оцінимо проект — розрахуємо економію на інфраструктурі.

Модель	F1 macro	Latency (CPU)	Розмір
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

Як вибрати модель класифікації під ваш датасет?

Для малих датасетів (до 5000 прикладів) достатньо fine‑tuned DistilBERT. Якщо потрібна багатомовність — XLM‑RoBERTa. При жорстких обмеженнях latency — дистильована модель з ONNX Runtime. Ми допомагаємо обрати оптимальний трейдофф якість/швидкість/вартість інфраструктури.

NER: розпізнавання іменованих сутностей

NER — вилучення персон, організацій, локацій, дат, сум, номерів документів. Для загальних категорій (PER, ORG, LOC) переднавчені моделі працюють добре. Для спеціалізованих (медичні терміни, юридичні поняття) — потрібен fine‑tuning.

Розмітка даних. Основна вартість NER‑проекту. Для якісної моделі — 500‑2000 розмічених речень на кожен тип сутності. Інструменти: Label Studio (open source) або Prodigy (від творців spaCy). Формат IOB2 — стандарт.

Архітектура. Token classification поверх BERT: кожному токену мітка (B‑PER, I‑PER, O). spaCy 3.x з transformer pipeline — зручний production‑вибір.

Вкладені сутності. Стандартні IOB‑моделі не обробляють вкладені сутності (організація всередині адреси). Для таких задач — span‑based NER: SpanBERT або SpERT. Складніше, але правильно.

Постобробка обов’язкова. Модель передбачає токени — потрібні нормалізовані сутності. Дата — dateparser. Суми — regex + валідація. Імена — дедуплікація через rapidfuzz. Входить у нашу стандартну поставку.

Sentiment Analysis та opinion mining

Бінарна класифікація positive/negative працює з BERT з коробки. Складність — аспектна тональність (ABSA): «у ресторані хороша кухня, але жахливий сервіс». Для ABSA: aspect extraction (NER) + sentiment за кожним аспектом. Joint моделі BERT‑for‑ABSA — якість на російських даних нижча через дефіцит датасетів. RuSentiment, SentiRuEval — основні ресурси.

Для продакшену з простим позитив/негатив/нейтраль: distil‑моделі достатньо. Три класи, balanced датасет, 2000+ прикладів — F1 macro 0.82‑0.87 за 1‑2 дні.

Сумарізація тексту

Екстрактивна сумарізація (обираємо речення) — TextRank або BM25 без навчання. Швидко, не галюцинує. Добре для довгих документів.

Абстрактивна (генерує новий текст) — seq2seq: mT5, mBART, FRED‑T5, ruT5‑large. Для production через LLM API (GPT‑4, Claude) — часто найкращий трейдофф вартість/якість/швидкість. Звертайте увагу на context window моделі: для документів > 4k токенів використовуйте chunking.

Ембеддинги: векторні представлення тексту

Ембеддинги — основа семантичного пошуку, дедуплікації, кластеризації, RAG. Якість критично впливає на downstream задачі.

Моделі. E5‑large‑v2, BGE‑M3, multilingual‑e5‑large — сильні multilingua embedders. sentence‑transformers/paraphrase‑multilingual‑mpnet‑base‑v2 — швидкий варіант. Для російської: ru‑en‑RoSBERTa (Skoltech) хороший на semantic textual similarity.

Як оцінити якість ембеддингів? MTEB benchmark — стандарт. Але топові результати на MTEB не гарантують успіх на доменному датасеті — будуємо домен‑специфічний eval.

Fine‑tuning ембеддингів. Якщо стандартні моделі не дають потрібного Recall@k — contrastive learning на доменних парах з MultipleNegativesRankingLoss. 500‑2000 пар, 1‑3 епохи — 5‑15% приріст Recall@k.

Розмірність та зберігання. E5‑large: 1024 dim, float32 — 4KB на вектор. При 10M документів — 40GB. INT8 quantization знижує до 10GB. FAISS IVF_PQ — ще компактніше, але з втратами. Входить у наші рекомендації по деплою.

Вилучення інформації

Структуроване вилучення — одна з частих задач. Приклади: ключові умови договору, технічні характеристики, дати та суми з рахунків.

Regex + rule-based. Для ІПН, ЄДРПОУ, сум, дат — надійніше нейромережі. Не потребує даних.
NER + постобробка. Для варіативних форматів.
LLM з structured output. GPT‑4 / Claude з JSON schema — для складних документів. Вартість: залежить від обсягу документів. Для 10k+ документів/день — рахуємо економіку.

Гарантуємо гібрид: regex/NER для типових полів + LLM для edge cases. Сертифікат довіри: 5 років на ринку, >30 проектів.

Етапи роботи

Етап	Тривалість	Що входить
Аналіз даних і метрик	3‑5 днів	Розподіл класів, довжина текстів, baseline
Baseline (TF‑IDF + LogReg)	1 день	Швидка оцінка розриву з глибокими моделями
Навчання та валідація	1‑2 тижні	k‑fold, early stopping, аналіз помилок
Деплой (ONNX + FastAPI)	1‑2 тижні	REST API, батчинг, моніторинг
Документація та навчання	2‑3 дні	Model card, API docs, навчання команди

Прототип на існуючих даних — 1‑3 тижні. Production‑система з CI/CD — 1.5‑2.5 місяця. Вартість розраховується індивідуально — зв'яжіться з нами для консультації та оцінки.

Що входить у роботу

Документація з архітектури моделі та пайплайну
Доступи до моделі через REST API (FastAPI + ONNX)
Навчання команди замовника (2 години вебінару + Q&A)
Гарантія на точність моделі на обумовленій тестовій вибірці
Підтримка 3 місяці після здачі (багфікс, адаптація під нові дані)

Наш досвід

Понад 5 років у NLP, 30+ проектів від класифікації до RAG‑систем. Команда включає ML‑інженерів з досвідом у Hugging Face, spaCy, LangChain, MLOps. Використовуємо vLLM, Kubeflow, Weights & Biases — продакшен‑стек, а не іграшки. Замовте консультацію — оцінимо проект за 2 дні.