Чем hybrid search отличается от обычного векторного поиска?

Hybrid search комбинирует векторный (dense) и полнотекстовый (sparse/BM25) поиск. Векторный поиск понимает семантику, но теряет точные совпадения — номера договоров, артикулы. Полнотекстовый находит точные строки, но пропускает синонимы. Их объединение даёт лучшее из обоих миров.

Какие алгоритмы слияния результатов используются в hybrid search?

Наиболее популярны Reciprocal Rank Fusion (RRF) и Relative Score Fusion (RSF). RRF суммирует обратные ранги из каждого списка, что устойчиво к разным шкалам оценок. RSF нормализует оценки и взвешивает их, требуя подбора alpha. RRF проще и часто даёт лучшие метрики.

Что такое SPLADE и зачем он нужен?

SPLADE — это нейросетевой sparse encoder, который генерирует разреженные векторы с лексическим расширением. В отличие от BM25, SPLADE «понимает» синонимы и связанные термины. На бенчмарках BEIR SPLADE превосходит BM25 на 5–10% по NDCG.

Сколько времени занимает внедрение hybrid search?

Типовой проект занимает от 1 до 2 недель. Включает настройку sparse encoder (SPLADE), интеграцию с векторной базой (Qdrant, Pinecone), подбор параметров RRF (k, alpha) на вашем датасете и тестирование.

Какие метрики качества retrieval вы используете?

Основные метрики: MRR@k (Mean Reciprocal Rank), NDCG@k (Normalized Discounted Cumulative Gain) и recall по точным терминам. Для RAG-систем также важен контекстный recall и релевантность топ-5 документов.

Чем hybrid search отличается от обычного векторного поиска?

Hybrid search комбинирует векторный (dense) и полнотекстовый (sparse/BM25) поиск. Векторный поиск понимает семантику, но теряет точные совпадения — номера договоров, артикулы. Полнотекстовый находит точные строки, но пропускает синонимы. Их объединение даёт лучшее из обоих миров.

Какие алгоритмы слияния результатов используются в hybrid search?

Наиболее популярны Reciprocal Rank Fusion (RRF) и Relative Score Fusion (RSF). RRF суммирует обратные ранги из каждого списка, что устойчиво к разным шкалам оценок. RSF нормализует оценки и взвешивает их, требуя подбора alpha. RRF проще и часто даёт лучшие метрики.

Что такое SPLADE и зачем он нужен?

SPLADE — это нейросетевой sparse encoder, который генерирует разреженные векторы с лексическим расширением. В отличие от BM25, SPLADE «понимает» синонимы и связанные термины. На бенчмарках BEIR SPLADE превосходит BM25 на 5–10% по NDCG.

Сколько времени занимает внедрение hybrid search?

Типовой проект занимает от 1 до 2 недель. Включает настройку sparse encoder (SPLADE), интеграцию с векторной базой (Qdrant, Pinecone), подбор параметров RRF (k, alpha) на вашем датасете и тестирование.

Какие метрики качества retrieval вы используете?

Основные метрики: MRR@k (Mean Reciprocal Rank), NDCG@k (Normalized Discounted Cumulative Gain) и recall по точным терминам. Для RAG-систем также важен контекстный recall и релевантность топ-5 документов.

Реализация Hybrid Search (векторный + полнотекстовый поиск) для RAG

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Реализация Hybrid Search (векторный + полнотекстовый поиск) для RAG

Средний

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1351
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
950
Разработка интернет магазина для компании FURNORO
1186
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
922

Показать больше работ

При реализации RAG-систем часто возникает дилемма: как одновременно найти документ по смыслу и по точному номеру? Hybrid Search — комбинация векторного (dense) и полнотекстового (sparse/BM25) поиска с последующим слиянием результатов — решает эту задачу. На практике hybrid search стабильно превосходит любой из методов в отдельности на большинстве корпоративных датасетов. Например, на одном из проектов hybrid search (RRF) улучшил MRR@5 на 12% относительно pure dense search при сохранении высокого recall по точным терминам. Мы реализуем такие решения под ключ, с гарантией качества retrieval на ваших данных. Закажите консультацию по внедрению hybrid search и получите оценку вашего проекта.

Почему нельзя обойтись только dense search

Dense embedding усредняет семантику — это и сила, и слабость. Запрос «договор №ДА-2023-451» будет иметь высокое косинусное сходство с договорами вообще, но не с конкретным документом по номеру. BM25 найдёт точное совпадение строки «ДА-2023-451» мгновенно.

Dense search плохо работает для: точных номеров (договор, артикул, серийный номер), аббревиатур и специфических акронимов, редких технических терминов, запросов на поиск точной цитаты.
BM25 плохо работает для: перефразированных запросов (синонимы), семантически похожих концепций с разными словами, межъязыковых запросов, неточных описаний («что-то про оплату после поставки»).

Почему hybrid search лучше, чем dense или BM25 по отдельности?

Сочетание двух подходов даёт синергию: dense покрывает семантику, BM25 — точные совпадения. Ниже на реальном кейсе видно, что hybrid RRF (без реранкера) превосходит dense+reranker по MRR@5 (0.83 vs 0.80) и NDCG@5 (0.81 vs 0.77). При этом hybrid+reranker даёт уже 0.89/0.87. Другими словами, реализация гибридного поиска (hybrid search implementation) позволяет достичь баланса между семантической близостью и точным совпадением ключевых слов. По данным нашего A/B-тестирования на 400 запросах, hybrid RRF превосходит dense+reranker в 1.04 раза по MRR@5. Для многих задач это отменяет необходимость в дорогом реранкере.

Алгоритмы слияния результатов

Reciprocal Rank Fusion (RRF) — наиболее устойчивый метод. RRF — метод слияния, предложенный Кормаком и др. (2009) — подробнее на Wikipedia.

Код RRF

from collections import defaultdict

def reciprocal_rank_fusion(
    dense_results: list[tuple],   # [(doc_id, score), ...]
    sparse_results: list[tuple],
    k: int = 60  # RRF константа (обычно 60)
) -> list[tuple]:
    """
    RRF score = sum(1 / (k + rank_i)) по всем спискам
    k=60 стандартное значение (Cormack et al.)
    """
    scores = defaultdict(float)

    for rank, (doc_id, _) in enumerate(dense_results, 1):
        scores[doc_id] += 1 / (k + rank)

    for rank, (doc_id, _) in enumerate(sparse_results, 1):
        scores[doc_id] += 1 / (k + rank)

    return sorted(scores.items(), key=lambda x: -x[1])

Relative Score Fusion (RSF) — нормализованное объединение:

Код RSF

def relative_score_fusion(
    dense_results: list[tuple],
    sparse_results: list[tuple],
    alpha: float = 0.5  # Вес dense
) -> list[tuple]:
    """Нормализует оценки в [0,1] и взвешивает"""
    scores = defaultdict(float)

    # Нормализация dense
    if dense_results:
        max_d = max(s for _, s in dense_results)
        min_d = min(s for _, s in dense_results)
        for doc_id, score in dense_results:
            norm = (score - min_d) / (max_d - min_d + 1e-8)
            scores[doc_id] += alpha * norm

    # Нормализация sparse
    if sparse_results:
        max_s = max(s for _, s in sparse_results)
        min_s = min(s for _, s in sparse_results)
        for doc_id, score in sparse_results:
            norm = (score - min_s) / (max_s - min_s + 1e-8)
            scores[doc_id] += (1 - alpha) * norm

    return sorted(scores.items(), key=lambda x: -x[1])

Сравнение алгоритмов слияния

Параметр	RRF	RSF
Принцип	Сумма обратных рангов	Взвешенная сумма нормализованных оценок
Чувствительность к шкалам	Низкая (использует только ранг)	Высокая (требует нормализации)
Настройка	Один параметр k	Параметр alpha
Устойчивость	Высокая	Средняя (зависит от alpha)
Рекомендуемый k/alpha	k=60 (эмпирически)	alpha=0.5 (по умолчанию)

SPLADE: продвинутый sparse encoder

SPLADE (Sparse Lexical and Expansion Model) генерирует sparse векторы с лексическим расширением — модель учится «расширять» запрос синонимами и связанными терминами. По данным бенчмарка BEIR, SPLADE превосходит BM25 в 1.2–1.5 раза по NDCG@10.

from fastembed import SparseTextEmbedding

sparse_model = SparseTextEmbedding(
    model_name="prithivida/Splade_PP_en_v1"
)

def encode_sparse(text: str) -> dict:
    """Возвращает sparse вектор {token_id: weight}"""
    output = list(sparse_model.embed([text]))[0]
    return {
        "indices": output.indices.tolist(),
        "values": output.values.tolist(),
    }

SPLADE превосходит BM25 на большинстве BEIR бенчмарков. Для русского языка рекомендуем модель naver/efficient-splade-VI-BT-large-query или multilingual варианты.

Реализация с Qdrant (практический пример)

from qdrant_client import QdrantClient
from qdrant_client.models import (
    SparseVector, Prefetch, FusionQuery, Fusion,
    NamedVector, NamedSparseVector
)
from fastembed import TextEmbedding, SparseTextEmbedding

dense_model = TextEmbedding("BAAI/bge-m3")  # Multilingual dense
sparse_model = SparseTextEmbedding("prithivida/Splade_PP_en_v1")
client = QdrantClient(url="http://localhost:6333")

def hybrid_search(query: str, top_k: int = 5) -> list[dict]:
    # Dense embedding
    dense_vec = list(dense_model.embed([query]))[0].tolist()

    # Sparse embedding
    sparse_output = list(sparse_model.embed([query]))[0]
    sparse_vec = SparseVector(
        indices=sparse_output.indices.tolist(),
        values=sparse_output.values.tolist()
    )

    results = client.query_points(
        collection_name="hybrid_docs",
        prefetch=[
            Prefetch(query=dense_vec, using="dense", limit=50),
            Prefetch(query=sparse_vec, using="sparse", limit=50),
        ],
        query=FusionQuery(fusion=Fusion.RRF),
        limit=top_k,
        with_payload=True,
    )

    return [
        {"text": r.payload["text"], "source": r.payload["source"], "score": r.score}
        for r in results.points
    ]

Практический кейс: влияние alpha на качество retrieval

Из нашей практики: на проекте с 12 000 документов корпоративной базы знаний (договоры, регламенты, FAQ) мы протестировали 400 запросов разных типов. Результаты:

Конфигурация	MRR@5	NDCG@5	Точные термины recall
Dense only (BGE-M3)	0.74	0.71	0.58
BM25 only	0.67	0.63	0.91
Hybrid RRF (k=60)	0.83	0.81	0.84
Hybrid RSF (α=0.6)	0.81	0.79	0.81
Dense + Reranker	0.80	0.77	0.61
Hybrid + Reranker	0.89	0.87	0.86

Hybrid RRF без reranker уже бьёт dense+reranker. Комбинация hybrid+reranker — наилучший результат. Для сравнения, SPLADE в качестве sparse encoder даёт прирост MRR@5 примерно на 0.03–0.05 относительно BM25 при том же методе слияния.

Как настроить RRF-слияние на вашем датасете?

Оптимальное k для RRF: k=60 — эмпирически устойчивое значение. Слишком малое k (10–20) даёт большой вес топ-позициям. Слишком большое (100+) нивелирует разницу между позициями. На реальных данных проверьте k∈{20, 40, 60, 80} на валидационном наборе. Для RSF подбирайте alpha от 0.3 до 0.7 с шагом 0.1.

Пошаговый процесс внедрения hybrid search

Аудит текущей схемы retrieval: анализ используемых эмбеддингов, стека векторной БД и метрик качества.
Выбор и настройка sparse encoder: установка SPLADE или другого sparse encoder под ваш язык и домен.
Интеграция двойного поиска: настройка индексации dense и sparse векторов в Qdrant/Pinecone/Weaviate.
Реализация слияния: внедрение RRF или RSF с начальными параметрами (k=60, alpha=0.5).
Тестирование и оптимизация: прогон ваших запросов, подбор параметров по метрикам MRR/NDCG.
Документация и передача: описание процесса, обучение команды, передача кода и конфигов.

Что вы получите в результате

Интеграционный код hybrid search в вашу RAG-систему.
Конфигурационные файлы для Qdrant/Pinecone.
Документация по настройке и эксплуатации.
Обучение команды (2-часовой вебинар).
Гарантия качества retrieval (фиксация метрик до/после).
Пост-проектная поддержка 1 месяц.

Свяжитесь с нами для бесплатной оценки вашего проекта. Получите консультацию по внедрению hybrid search и повысьте качество retrieval вашей RAG-системы.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.