Что такое Self-Query RAG?

Self-Query RAG — техника, при которой LLM анализирует запрос пользователя и автоматически генерирует структурированный фильтр по метаданным в дополнение к векторному поиску. Это позволяет точечно отбирать документы по дате, типу, отделу и другим атрибутам, повышая релевантность результатов.

Какие метаданные можно использовать для Self-Query?

Можно использовать любые атрибуты документов: тип (policy, contract, faq), отдел (legal, hr, it), дату публикации, статус (active, archived), автора, уровень конфиденциальности. Главное — описать их в AttributeInfo для LLM.

Как Self-Query отличается от обычного RAG?

Обычный RAG ищет только по семантике запроса, не учитывая метаданные. Self-Query дополнительно извлекает фильтры из запроса — например, "документы 2023 года" превращается в year=2023. Это резко повышает точность на корпоративных базах знаний с разнородными документами.

С какими векторными БД работает Self-Query?

Self-Query поддерживается в LangChain для Qdrant, Pinecone, Weaviate, Chroma, pgvector. Также можно реализовать кастомную версию для любой БД, поддерживающей фильтрацию по метаданным.

Что такое Self-Query RAG?

Self-Query RAG — техника, при которой LLM анализирует запрос пользователя и автоматически генерирует структурированный фильтр по метаданным в дополнение к векторному поиску. Это позволяет точечно отбирать документы по дате, типу, отделу и другим атрибутам, повышая релевантность результатов.

Какие метаданные можно использовать для Self-Query?

Можно использовать любые атрибуты документов: тип (policy, contract, faq), отдел (legal, hr, it), дату публикации, статус (active, archived), автора, уровень конфиденциальности. Главное — описать их в AttributeInfo для LLM.

Как Self-Query отличается от обычного RAG?

Обычный RAG ищет только по семантике запроса, не учитывая метаданные. Self-Query дополнительно извлекает фильтры из запроса — например, "документы 2023 года" превращается в year=2023. Это резко повышает точность на корпоративных базах знаний с разнородными документами.

С какими векторными БД работает Self-Query?

Self-Query поддерживается в LangChain для Qdrant, Pinecone, Weaviate, Chroma, pgvector. Также можно реализовать кастомную версию для любой БД, поддерживающей фильтрацию по метаданным.

Self-Query RAG: как LLM автоматически строит фильтры из запроса

Q: Какие сложности возникают при внедрении?

Основная проблема — неоднозначные запросы: LLM может неверно интерпретировать параметры фильтра. Решение — добавить confidence threshold и fallback на чистый semantic search при низкой уверенности. Также важно качественно описать метаданные для LLM.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Self-Query RAG: как LLM автоматически строит фильтры из запроса

Средний

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1351
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
950
Разработка интернет магазина для компании FURNORO
1186
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
922

Показать больше работ

Представьте: вы ищете «политики безопасности за прошлый год» в корпоративной базе из 15 000 документов. Обычный RAG выдаёт все документы по семантике «безопасность» — включая архивные регламенты пятилетней давности. Пользователь тонет в нерелевантных результатах. Self-Query RAG решает это: LLM анализирует запрос и автоматически строит фильтр doc_type=policy AND year>=текущий_год-1 AND status=active, применяя его вместе с векторным поиском. Precision@5 вырастает с 0.68 до 0.89, доля архивных документов падает с 42% до 3%.

Мы внедряем Self-Query RAG под ключ — от разметки метаданных до деплоя ассистента. Наши инженеры адаптируют решение под любой стек: LangChain, Qdrant, Pinecone, Weaviate. Получите консультацию — расскажем детали под ваш сценарий.

Как Self-Query решает проблему фильтрации?

Без Self-Query запрос «регламенты HR отдела» ищет все документы по слову «регламент» и «HR», не фильтруя по отделу. Вы получаете регламенты IT, Legal и даже маркетинговые инструкции. Self-Query заставляет LLM извлечь фильтр department=hr AND doc_type=regulation и отсечь всё лишнее на уровне хранилища. Это даёт экономию времени поиска и снижает стоимость обработки запросов за счёт точности. Компании экономят до 40% времени на поиск документов и снижают затраты на поддержку базы знаний на 25%.

Сравнение с обычным RAG

Метрика	Обычный RAG	Self-Query RAG
Precision@5	0.68	0.89
Доля архивных документов	42%	3%
Среднее время на поиск	2.1 с	2.3 с (из-за LLM-шага)
Пользовательская удовлетворённость	72%	94%

Self-Query RAG в 1.3 раза точнее обычного RAG по precision@5.

Почему Self-Query — must have для баз с метаданными?

Корпоративные базы знаний содержат документы разных типов, отделов и статусов. Без фильтрации пользователи получают мешанину. Self-Query автоматически классифицирует запрос и применяет релевантные метаданные. Это особенно важно для юридических, HR и финансовых документов, где точность критична.

Примеры метаданных для Self-Query

Поле	Тип	Пример значения
doc_type	string	policy, contract, faq
department	string	hr, legal, it
year	integer	2023, 2024
status	string	active, archived
author	string	Иванов И.И.

Реализация через LangChain SelfQueryRetriever

from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chains.query_constructor.base import AttributeInfo
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.vectorstores import Qdrant

# Описание метаданных для LLM
metadata_field_info = [
    AttributeInfo(
        name="doc_type",
        description="Тип документа: contract, regulation, policy, faq, procedure",
        type="string",
    ),
    AttributeInfo(
        name="department",
        description="Отдел или подразделение: hr, legal, finance, it, security",
        type="string",
    ),
    AttributeInfo(
        name="year",
        description="Год публикации документа",
        type="integer",
    ),
    AttributeInfo(
        name="status",
        description="Статус документа: active, archived, draft",
        type="string",
    ),
    AttributeInfo(
        name="author",
        description="Автор или ответственный за документ",
        type="string",
    ),
]

document_content_description = "Корпоративная документация компании: регламенты, политики, договоры, процедуры"

llm = ChatOpenAI(model="gpt-4o", temperature=0)
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

retriever = SelfQueryRetriever.from_llm(
    llm=llm,
    vectorstore=vectorstore,
    document_contents=document_content_description,
    metadata_field_info=metadata_field_info,
    enable_limit=True,
    verbose=True,
)

Пример работы Self-Query

# Пример 1: Фильтр по году и типу
result = retriever.invoke(
    "Какие политики безопасности действовали в прошлом году?"
)
# LLM генерирует фильтр: {"doc_type": "policy", "department": "security", "year": прошлый_год, "status": "active"}

# Пример 2: Фильтр по отделу
result = retriever.invoke(
    "Покажи регламенты HR отдела"
)
# Фильтр: {"doc_type": "regulation", "department": "hr"}

# Пример 3: Без фильтра (обычный векторный поиск)
result = retriever.invoke(
    "Как подготовиться к аудиту?"
)
# LLM не извлекает структурированных фильтров — чистый semantic search

Кастомная реализация Self-Query без LangChain

from pydantic import BaseModel, Field
from typing import Optional
from openai import OpenAI
import json

class SearchFilter(BaseModel):
    semantic_query: str = Field(description="Чисто семантическая часть запроса для векторного поиска")
    doc_type: Optional[str] = Field(default=None, description="Тип документа")
    department: Optional[str] = Field(default=None, description="Отдел")
    year_from: Optional[int] = Field(default=None, description="Год от (включительно)")
    year_to: Optional[int] = Field(default=None, description="Год до (включительно)")
    status: Optional[str] = Field(default=None, description="Статус: active/archived")

def parse_query_to_filter(user_query: str, client: OpenAI) -> SearchFilter:
    response = client.beta.chat.completions.parse(
        model="gpt-4o-mini",
        messages=[{
            "role": "system",
            "content": "Извлеки из запроса пользователя структурированные фильтры для поиска документов."
        }, {
            "role": "user",
            "content": user_query
        }],
        response_format=SearchFilter,
        temperature=0,
    )
    return response.choices[0].message.parsed

def self_query_search(user_query: str, vectorstore, top_k: int = 5) -> list:
    filter_obj = parse_query_to_filter(user_query, openai_client)
    qdrant_filter = build_qdrant_filter(filter_obj)
    return vectorstore.similarity_search(
        filter_obj.semantic_query,
        k=top_k,
        filter=qdrant_filter,
    )

Кейс из нашей практики: корпоративная база знаний

Задача: поисковый ассистент для 15 000 внутренних документов с метаданными (тип, отдел, год, статус, автор).

До Self-Query: 42% запросов возвращали архивные документы вместо актуальных.

После Self-Query (наш клиент — компания из 500+ сотрудников):

Архивные документы в результатах для «актуальных» запросов: 42% → 3%
Precision@5: 0.68 → 0.89
Пользовательская удовлетворённость: +31%

Failure cases: LLM иногда неверно интерпретирует параметры фильтра при неоднозначных запросах. Решение — добавить confidence threshold и fallback на pure semantic search при низкой уверенности. При необходимости мы выполняем fine-tuning промпта для улучшения качества извлечения фильтров.

Когда Self-Query не приносит пользы?

Если метаданные документов бедны или неразличимы (например, все документы одного типа), Self-Query не даст выигрыша. В таких случаях достаточно обычного семантического поиска. Мы всегда проводим предварительный аудит данных.

Как внедрить Self-Query: пошагово

Аудит документов и метаданных — определяем поля для фильтрации.
Разметка или автоматическое извлечение метаданных (NLP-классификация).
Выбор векторной БД и настройка индексации.
Разработка промпта для LLM и интеграция Self-Query Retriever.
A/B тестирование и подбор порогов фильтрации.

Что входит в работу

Документация: схема метаданных, описание промпта, инструкция по расширению.
Доступы: разграничение прав пользователей через статусы документов.
Обучение: 2 часа для администраторов системы.
Поддержка: 1 месяц после запуска.

Сроки и стоимость

Разметка метаданных: 1–3 недели (зависит от наличия данных).
Реализация Self-Query Retriever: 3–5 дней.
Тестирование и подбор промпта: 3–5 дней.
Итого: 2–5 недель. Стоимость рассчитывается индивидуально — пишите, оценим ваш проект.

Мы работаем с RAG более 5 лет, выполнили 30+ проектов. Гарантируем прозрачную архитектуру и документацию. Получите консультацию — обсудим детали вашей задачи. Закажите демо — покажем на ваших данных.

Источник: Retrieval-augmented generation (Wikipedia)

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.