Когда нужно использовать Multi-Query?

Multi-Query эффективен, когда запросы пользователей вариативны, а база знаний содержит документы с разной терминологией. Особенно полезен в корпоративных системах (HR, юридические, технические базы). Не рекомендуется при жестких ограничениях по latency (<200 мс) или очень малом датасете (<5000 документов).

Какой промпт лучше для генерации вариантов?

Стандартный промпт LangChain дает 3-5 вариантов. Мы рекомендуем кастомный промпт, адаптированный под предметную область: добавляем синонимы, общие и конкретные формулировки, сохраняя исходный смысл. Это даёт прирост recall до 10% без увеличения числа вариантов.

Какой прирост recall дает Multi-Query?

В нашей практике Multi-Query с 4 вариантами запроса и k=5 повышает Recall@10 с 0.61 до 0.84, то есть на 38%. После добавления reranker precision восстанавливается до 0.81. Latency при этом растет в 2-3 раза (до 700-900 мс), что приемлемо для большинства бизнес-сценариев.

Сколько времени занимает внедрение Multi-Query RAG?

Базовая реализация с LangChain занимает 2-3 дня, подбор промпта и тестирование — еще 2-3 дня. Полный цикл (включая интеграцию с существующей системой и A/B-тестирование) — до 1 недели. Стоимость рассчитывается индивидуально, но в среднем окупается за счет снижения времени пользователей на поиск информации.

Когда нужно использовать Multi-Query?

Multi-Query эффективен, когда запросы пользователей вариативны, а база знаний содержит документы с разной терминологией. Особенно полезен в корпоративных системах (HR, юридические, технические базы). Не рекомендуется при жестких ограничениях по latency (<200 мс) или очень малом датасете (<5000 документов).

Какой промпт лучше для генерации вариантов?

Стандартный промпт LangChain дает 3-5 вариантов. Мы рекомендуем кастомный промпт, адаптированный под предметную область: добавляем синонимы, общие и конкретные формулировки, сохраняя исходный смысл. Это даёт прирост recall до 10% без увеличения числа вариантов.

Какой прирост recall дает Multi-Query?

В нашей практике Multi-Query с 4 вариантами запроса и k=5 повышает Recall@10 с 0.61 до 0.84, то есть на 38%. После добавления reranker precision восстанавливается до 0.81. Latency при этом растет в 2-3 раза (до 700-900 мс), что приемлемо для большинства бизнес-сценариев.

Сколько времени занимает внедрение Multi-Query RAG?

Базовая реализация с LangChain занимает 2-3 дня, подбор промпта и тестирование — еще 2-3 дня. Полный цикл (включая интеграцию с существующей системой и A/B-тестирование) — до 1 недели. Стоимость рассчитывается индивидуально, но в среднем окупается за счет снижения времени пользователей на поиск информации.

Реализация Multi-Query RAG для повышения качества извлечения

Q: Что такое Multi-Query RAG?

Multi-Query RAG — техника улучшения retrieval, при которой исходный запрос автоматически перефразируется несколькими способами. Каждый вариант запускается в поиске, а результаты объединяются и дедуплицируются. Это снижает зависимость качества ответа от конкретной формулировки запроса и повышает полноту извлечения.

Q: Какой промпт лучше для генерации вариантов?

Стандартный промпт LangChain дает 3-5 вариантов. Мы рекомендуем кастомный промпт, адаптированный под предметную область: добавляем синонимы, общие и конкретные формулировки, сохраняя исходный смысл. Это даёт прирост recall до 10% без увеличения числа вариантов.

Q: Какой прирост recall дает Multi-Query?

В нашей практике Multi-Query с 4 вариантами запроса и k=5 повышает Recall@10 с 0.61 до 0.84, то есть на 38%. После добавления reranker precision восстанавливается до 0.81. Latency при этом растет в 2-3 раза (до 700-900 мс), что приемлемо для большинства бизнес-сценариев.

Q: Сколько времени занимает внедрение Multi-Query RAG?

Базовая реализация с LangChain занимает 2-3 дня, подбор промпта и тестирование — еще 2-3 дня. Полный цикл (включая интеграцию с существующей системой и A/B-тестирование) — до 1 недели. Стоимость рассчитывается индивидуально, но в среднем окупается за счет снижения времени пользователей на поиск информации.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Реализация Multi-Query RAG для повышения качества извлечения

Средний

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1351
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
950
Разработка интернет магазина для компании FURNORO
1186
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
922

Показать больше работ

Реализация Multi-Query RAG для повышения качества извлечения

Представьте: ваша RAG-система на 20% запросов выдает нерелевантные ответы только из-за неудачной формулировки. Мы, как инженеры с глубоким опытом в AI/ML, сталкивались с этой проблемой десятки раз. Например, запрос «как уволить сотрудника» и «процедура расторжения трудового договора» — одно и то же, но система видит разные векторы и теряет половину релевантных документов. RAG (Retrieval-Augmented Generation) — техника улучшения retrieval, при которой исходный запрос автоматически перефразируется несколькими способами, каждый вариант запускается в поиске, а результаты объединяются. Это снижает зависимость качества ответа от конкретной формулировки запроса и повышает полноту извлечения. В нашей практике это дало прирост recall на 38% при умеренном росте latency.

Как Multi-Query RAG повышает полноту извлечения?

Одна и та же информация может быть описана разными терминами. Например, в корпоративной базе знаний запрос «как оформить отпуск» найдет заявления, «процедура получения ежегодного отпуска» — регламент, а «правила предоставления отпускных дней» — политику HR. Multi-Query объединяет все три и получает более полный контекст, что критически важно для бизнес-процессов. Согласно исследованию RAG на практике, прирост полноты извлечения достигает 38%.

Реализация с LangChain

from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.vectorstores import Qdrant

llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.3)
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
vectorstore = Qdrant.from_existing_collection(
    embeddings=embeddings,
    collection_name="knowledge_base",
    url="http://localhost:6333",
)

retriever = MultiQueryRetriever.from_llm(
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}),
    llm=llm,
    include_original=True,
)

# Использование
docs = retriever.invoke("каков порядок согласования крупной сделки")
# Внутри LangChain генерирует 3 перефразирования + оригинал,
# ищет по каждому и дедуплицирует результаты

Это базовый вариант — мы используем его для быстрых прототипов. В продакшене часто требуется кастомный промпт, адаптированный под специфику клиента.

Кастомный Multi-Query с контролем промпта

Стандартный промпт LangChain можно заменить специализированным:

from langchain.prompts import PromptTemplate
from langchain_core.output_parsers import BaseOutputParser

class LineListOutputParser(BaseOutputParser):
    """Парсит список вопросов из ответа LLM"""
    def parse(self, text: str) -> list[str]:
        lines = text.strip().split("\n")
        return [line.strip().lstrip("123456789.-) ") for line in lines if line.strip()]

MULTI_QUERY_PROMPT = PromptTemplate(
    input_variables=["question"],
    template="""Ты — AI-ассистент по поиску документов. Твоя задача — сгенерировать
5 различных вариантов следующего вопроса для улучшения поиска в векторной базе.

Правила:
- Используй синонимы и альтернативные формулировки
- Один вариант — более конкретный, один — более общий
- Сохраняй смысл оригинального вопроса
- Каждый вопрос с новой строки, без нумерации

Оригинальный вопрос: {question}

Варианты:"""
)

custom_retriever = MultiQueryRetriever(
    retriever=vectorstore.as_retriever(search_kwargs={"k": 4}),
    llm_chain=MULTI_QUERY_PROMPT | llm | LineListOutputParser(),
    include_original=True,
)

Наш опыт показывает, что кастомный промпт дает на 5–10% лучший recall, так как адаптирован под предметную область клиента.

Parallel Multi-Query с дедупликацией

Для уменьшения latency запускаем поиск по всем вариантам параллельно:

import asyncio
from openai import AsyncOpenAI

async def multi_query_search(
    original_query: str,
    vectorstore,
    n_variants: int = 4,
    top_k_per_query: int = 5,
) -> list[str]:
    """Параллельный multi-query retrieval"""

    async_client = AsyncOpenAI()

    # Генерируем варианты запроса
    response = await async_client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{
            "role": "user",
            "content": f"Сгенерируй {n_variants} перефразирования вопроса:\n{original_query}\nОдин вопрос на строку."
        }],
        temperature=0.5,
    )
    variants = response.choices[0].message.content.strip().split("\n")
    all_queries = [original_query] + variants[:n_variants]

    # Параллельный поиск
    search_tasks = [
        asyncio.to_thread(vectorstore.similarity_search, q, k=top_k_per_query)
        for q in all_queries
    ]
    results_per_query = await asyncio.gather(*search_tasks)

    # Дедупликация по content
    seen_texts = set()
    unique_docs = []
    for docs in results_per_query:
        for doc in docs:
            text_hash = hash(doc.page_content[:100])
            if text_hash not in seen_texts:
                seen_texts.add(text_hash)
                unique_docs.append(doc)

    return unique_docs

Этот подход позволяет уложиться в 700–800 мс даже при 5 вариантах запроса.

Из нашей практики: кейс юридической компании

Недавно мы внедрили Multi-Query RAG для клиента из юридической сферы. Датасет: корпоративная база знаний (3200 документов). Тестовый набор — 200 запросов с размеченными релевантными документами.

Конфигурация	Recall@10	Precision@5	Latency (avg)
Single query, k=5	0.61	0.71	280мс
Single query, k=15	0.72	0.58	310мс
Multi-query (4 варианта), k=5	0.84	0.69	680мс
Multi-query + Reranker	0.84	0.81	920мс

Multi-query поднимает recall с 0.61 до 0.84 (+38%) при умеренном росте latency (×2.4). После reranker precision также восстанавливается до 0.81.

Сравнение с альтернативами: HyDE (Hypothetical Document Embeddings) в нашем тесте показал recall@10 = 0.71, но требовал дополнительного шага генерации гипотетического документа. Multi-Query оказался проще в реализации и дал на 18% лучший recall.

Метод	Recall@10	Latency (avg)	Сложность реализации
Single query	0.61	280 мс	Низкая
HyDE	0.71	450 мс	Средняя
Multi-Query	0.84	680 мс	Средняя

Из таблицы видно, что Multi-Query обеспечивает наилучший recall при приемлемом росте latency.

Почему Multi-Query эффективнее HyDE?

HyDE генерирует один гипотетический документ и ищет по нему, что даёт выигрыш, но меньше, чем Multi-Query. Причина: несколько вариантов запроса покрывают больше семантических вариаций, чем один документ. К тому же, Multi-Query проще в реализации — не нужен дополнительный шаг генерации документа.

Как мы внедряем Multi-Query RAG: пошагово

Аудит текущей RAG-системы и датасета. Анализируем структуру запросов и документов.
Выбор модели для генерации вариантов (GPT-4o-mini, Claude Haiku, LLaMA 3). Определяем число вариантов (обычно 3-5).
Кастомизация промпта под предметную область. Тестируем на репрезентативной выборке.
Интеграция параллельного поиска и дедупликации. Оптимизируем latency.
A/B-тестирование на ваших запросах. Сравниваем с текущей системой.
Документация и обучение команды. Передаём код и инструкции.

Весь цикл занимает 1 неделю. Стоимость рассчитывается индивидуально и окупается за 2-3 месяца за счёт экономии времени пользователей. По оценкам клиентов, экономия времени на поиск информации достигает существенных сумм для крупной компании.

Когда стоит внедрять Multi-Query, а когда нет?

Multi-Query оптимален, если:

запросы пользователей вариативны и содержат синонимы;
база знаний насчитывает более 5000 документов;
latency до 1 секунды допустима.

Он не нужен, когда:

требования по задержке менее 200 мс;
пользователи жестко следуют единой терминологии;
датасет мал (single query уже дает высокий recall).

Что входит в нашу работу по внедрению

Мы реализуем Multi-Query RAG под ключ:

Аудит текущей RAG-системы и датасета;
Подбор модели для генерации вариантов (GPT-4o-mini, Claude Haiku, LLaMA 3);
Кастомизация промпта под предметную область;
Интеграция параллельного поиска и дедупликации;
A/B-тестирование на ваших запросах;
Документация и обучение команды.

Пример промпта для генерации вариантов

Ты — AI-ассистент по поиску документов. Сгенерируй 5 различных вариантов следующего вопроса для улучшения поиска в векторной базе.
Правила:
- Используй синонимы и альтернативные формулировки
- Один вариант — более конкретный, один — более общий
- Сохраняй смысл оригинального вопроса
- Каждый вопрос с новой строки, без нумерации

Оригинальный вопрос: {question}
Варианты:

Сроки и стоимость

Ориентировочные сроки:

Реализация Multi-Query Retriever: 2–3 дня;
Подбор промпта и числа вариантов: 2–3 дня;
Тестирование на датасете: 2–3 дня;
Итого: 1 неделя.

Стоимость рассчитывается индивидуально, но благодаря ускорению поиска информации система окупается за 2–3 месяца. Для предварительной оценки вашего сценария свяжитесь с нами — мы бесплатно проанализируем ваш датасет и порекомендуем оптимальную конфигурацию. Закажите внедрение Multi-Query RAG и получите прирост recall до 38% уже через неделю. Получите консультацию инженера по внедрению.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.