Що таке Self-Query RAG?

Self-Query RAG — техніка, за якої LLM аналізує запит користувача та автоматично генерує структурований фільтр за метаданими на додаток до векторного пошуку. Це дозволяє точно відбирати документи за датою, типом, відділом та іншими атрибутами, підвищуючи релевантність результатів.

Які метадані можна використовувати для Self-Query?

Можна використовувати будь-які атрибути документів: тип (policy, contract, faq), відділ (legal, hr, it), дату публікації, статус (active, archived), автора, рівень конфіденційності. Головне — описати їх у AttributeInfo для LLM.

Чим Self-Query відрізняється від звичайного RAG?

Звичайний RAG шукає лише за семантикою запиту, не враховуючи метадані. Self-Query додатково видобуває фільтри із запиту — наприклад, "документи минулого року" перетворюється на year=поточний_рік-1. Це різко підвищує точність на корпоративних базах знань з різнорідними документами.

З якими векторними БД працює Self-Query?

Self-Query підтримується в LangChain для Qdrant, Pinecone, Weaviate, Chroma, pgvector. Також можна реалізувати кастомну версію для будь-якої БД, що підтримує фільтрацію за метаданими.

Що таке Self-Query RAG?

Self-Query RAG — техніка, за якої LLM аналізує запит користувача та автоматично генерує структурований фільтр за метаданими на додаток до векторного пошуку. Це дозволяє точно відбирати документи за датою, типом, відділом та іншими атрибутами, підвищуючи релевантність результатів.

Які метадані можна використовувати для Self-Query?

Можна використовувати будь-які атрибути документів: тип (policy, contract, faq), відділ (legal, hr, it), дату публікації, статус (active, archived), автора, рівень конфіденційності. Головне — описати їх у AttributeInfo для LLM.

Чим Self-Query відрізняється від звичайного RAG?

Звичайний RAG шукає лише за семантикою запиту, не враховуючи метадані. Self-Query додатково видобуває фільтри із запиту — наприклад, "документи минулого року" перетворюється на year=поточний_рік-1. Це різко підвищує точність на корпоративних базах знань з різнорідними документами.

З якими векторними БД працює Self-Query?

Self-Query підтримується в LangChain для Qdrant, Pinecone, Weaviate, Chroma, pgvector. Також можна реалізувати кастомну версію для будь-якої БД, що підтримує фільтрацію за метаданими.

Self-Query RAG: автоматичне генерування фільтрів LLM для точного пошуку

Q: Які складнощі виникають при впровадженні?

Основна проблема — неоднозначні запити: LLM може неправильно інтерпретувати параметри фільтра. Рішення — додати confidence threshold і fallback на чистий semantic search при низькій впевненості. Також важливо якісно описати метадані для LLM.

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Self-Query RAG: автоматичне генерування фільтрів LLM для точного пошуку

Середній

від 1 дня до 3 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1351
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
950
Розробка інтернет магазину для компанії FURNORO
1186
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
922

Показати більше робіт

Self-Query RAG: автоматичне генерування фільтрів LLM для точного пошуку

Уявіть: ви шукаєте «політики безпеки за минулий рік» у корпоративній базі з 15 000 документів. Звичайний RAG видає всі документи за семантикою «безпека» — включно з архівними регламентами п'ятирічної давності. Користувач тоне в нерелевантних результатах. Self-Query RAG вирішує це: LLM аналізує запит і автоматично будує фільтр doc_type=policy AND year>=поточний_рік-1 AND status=active, застосовуючи його разом з векторним пошуком. Precision@5 зростає з 0.68 до 0.89, частка архівних документів падає з 42% до 3% (зниження у 14 разів). Користувацька задоволеність зросла у 1.3 раза (з 72% до 94%).

Ми впроваджуємо Self-Query RAG під ключ — від розмітки метаданих до деплою асистента. Наші інженери адаптують рішення під будь-який стек: LangChain, Qdrant, Pinecone, Weaviate. Отримайте консультацію — розповімо деталі під ваш сценарій. Вартість проектів розраховується індивідуально залежно від об'єму даних та складності. Зменшення витрат на підтримку бази знань до 25% дає значну економію для компанії з 500 співробітників.

Огляд та технічна реалізація

Як Self-Query вирішує проблему фільтрації?

Без Self-Query запит «регламенти HR відділу» шукає всі документи за словом «регламент» і «HR», не фільтруючи за відділом. Ви отримуєте регламенти IT, Legal і навіть маркетингові інструкції. Self-Query змушує LLM витягти фільтр department=hr AND doc_type=regulation і відсікти все зайве на рівні сховища. Це дає економію часу пошуку та знижує вартість обробки запитів за рахунок точності. Компанії економлять до 40% часу на пошук документів і знижують витрати на підтримку бази знань на 25%.

Порівняння зі звичайним RAG

Метрика	Звичайний RAG	Self-Query RAG
Precision@5	0.68	0.89
Частка архівних документів	42%	3%
Середній час на пошук	2.1 с	2.3 с (через LLM-крок)
Користувацька задоволеність	72%	94%

Self-Query RAG в 1.3 раза точніший за звичайний RAG за precision@5.

Чому Self-Query — must have для баз з метаданими?

Корпоративні бази знань містять документи різних типів, відділів і статусів. Без фільтрації користувачі отримують мішанину. Self-Query автоматично класифікує запит і застосовує релевантні метадані. Це особливо важливо для юридичних, HR та фінансових документів, де точність критична. Використання атрибутивних фільтрів та структурованих метаданих дозволяє значно підвищити точність семантичного пошуку.

Метадані та налаштування

Поле	Тип	Приклад значення
doc_type	string	policy, contract, faq
department	string	hr, legal, it
year	integer	2023, поточний рік
status	string	active, archived
author	string	Іванов І.І.

Опис метаданих для LLM — критичний етап. Використовуйте AttributeInfo з чітким описом кожного поля.

Реалізація з LangChain

from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chains.query_constructor.base import AttributeInfo
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain_community.vectorstores import Qdrant

metadata_field_info = [
    AttributeInfo(
        name="doc_type",
        description="Тип документа: contract, regulation, policy, faq, procedure",
        type="string",
    ),
    AttributeInfo(
        name="department",
        description="Відділ або підрозділ: hr, legal, finance, it, security",
        type="string",
    ),
    AttributeInfo(
        name="year",
        description="Рік публікації документа",
        type="integer",
    ),
    AttributeInfo(
        name="status",
        description="Статус документа: active, archived, draft",
        type="string",
    ),
    AttributeInfo(
        name="author",
        description="Автор або відповідальний за документ",
        type="string",
    ),
]

document_content_description = "Корпоративна документація компанії: регламенти, політики, договори, процедури"

llm = ChatOpenAI(model="gpt-4o", temperature=0)
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

retriever = SelfQueryRetriever.from_llm(
    llm=llm,
    vectorstore=vectorstore,
    document_contents=document_content_description,
    metadata_field_info=metadata_field_info,
    enable_limit=True,
    verbose=True,
)

Приклад роботи Self-Query

# Приклад 1: Фільтр за роком і типом
result = retriever.invoke(
    "Які політики безпеки діяли минулого року?"
)
# LLM генерує фільтр: {"doc_type": "policy", "department": "security", "year": минулий_рік, "status": "active"}

# Приклад 2: Фільтр за відділом
result = retriever.invoke(
    "Покажи регламенти HR відділу"
)
# Фільтр: {"doc_type": "regulation", "department": "hr"}

# Приклад 3: Без фільтра (звичайний векторний пошук)
result = retriever.invoke(
    "Як підготуватися до аудиту?"
)
# LLM не видобуває структурованих фільтрів — чистий semantic search

Кастомна реалізація без LangChain

from pydantic import BaseModel, Field
from typing import Optional
from openai import OpenAI
import json

class SearchFilter(BaseModel):
    semantic_query: str = Field(description="Чисто семантична частина запиту для векторного пошуку")
    doc_type: Optional[str] = Field(default=None, description="Тип документа")
    department: Optional[str] = Field(default=None, description="Відділ")
    year_from: Optional[int] = Field(default=None, description="Рік від (включно)")
    year_to: Optional[int] = Field(default=None, description="Рік до (включно)")
    status: Optional[str] = Field(default=None, description="Статус: active/archived")

def parse_query_to_filter(user_query: str, client: OpenAI) -> SearchFilter:
    response = client.beta.chat.completions.parse(
        model="gpt-4o-mini",
        messages=[{
            "role": "system",
            "content": "Витягни із запиту користувача структуровані фільтри для пошуку документів."
        }, {
            "role": "user",
            "content": user_query
        }],
        response_format=SearchFilter,
        temperature=0,
    )
    return response.choices[0].message.parsed

def self_query_search(user_query: str, vectorstore, top_k: int = 5) -> list:
    filter_obj = parse_query_to_filter(user_query, openai_client)
    qdrant_filter = build_qdrant_filter(filter_obj)
    return vectorstore.similarity_search(
        filter_obj.semantic_query,
        k=top_k,
        filter=qdrant_filter,
    )

Кейси та впровадження

Практичний кейс: корпоративна база знань

Задача: пошуковий асистент для 15 000 внутрішніх документів з метаданими (тип, відділ, рік, статус, автор).

До Self-Query: 42% запитів повертали архівні документи замість актуальних.

Після Self-Query (наш клієнт — компанія з 500+ співробітників):

Архівні документи в результатах для «актуальних» запитів: 42% → 3% (зниження у 14 разів)
Precision@5: 0.68 → 0.89
Користувацька задоволеність: +31%

Failure cases: LLM іноді неправильно інтерпретує параметри фільтра при неоднозначних запитах. Рішення — додати confidence threshold і fallback на pure semantic search при низькій впевненості. При необхідності ми виконуємо fine-tuning промпту для покращення якості видобування фільтрів.

Коли Self-Query не приносить користі?

Якщо метадані документів бідні або нерозрізненні (наприклад, всі документи одного типу), Self-Query не дасть виграшу. У таких випадках достатньо звичайного семантичного пошуку. Ми завжди проводимо попередній аудит даних.

Покроковий план впровадження

Аудит документів і метаданих — визначаємо поля для фільтрації.
Розмітка або автоматичне видобування метаданих (NLP-класифікація).
Вибір векторної БД і налаштування індексації.
Розробка промпту для LLM та інтеграція Self-Query Retriever.
A/B тестування і підбір порогів фільтрації.

Що входить в роботу

Документація: схема метаданих, опис промпту, інструкція з розширення.
Доступи: розмежування прав користувачів через статуси документів.
Навчання: 2 години для адміністраторів системи.
Підтримка: 1 місяць після запуску.

Строки та вартість

Розмітка метаданих: 1–3 тижні (залежить від наявності даних).
Реалізація Self-Query Retriever: 3–5 днів.
Тестування та підбір промпту: 3–5 днів.
Разом: 2–5 тижнів. Вартість розраховується індивідуально — пишіть, оцінимо ваш проект.

Ми працюємо з RAG більше 5 років, виконали 30+ проектів. Гарантуємо прозору архітектуру та документацію. Отримайте консультацію — обговоримо деталі вашого завдання.

Джерело: Retrieval-augmented generation (Wikipedia).

Практичний розбір LLM: fine-tuning, RAG, агенти, деплой

Модель GPT‑4 або Claude 3.5 Sonnet через публічне API — не рішення, а просто інструмент. Коли приходить вимога «зробити як ChatGPT, але на наших даних», за нею стоїть реальна інженерна задача: від налаштування промптів до навчання 70B‑моделі на власній інфраструктурі. LLM розробка під ключ — це складний стек, і ми займаємося цим понад 5 років. За цей час реалізовано понад 20 проєктів у галузі генеративного AI: від RAG‑систем для юридичних департаментів до кастомних агентів для техпідтримки. Де саме знаходиться ваша задача — залежить від даних, latency‑вимог, бюджету та того, наскільки критична конфіденційність.

Типова ситуація: клієнт уже спробував ChatGPT, але результати нестабільні — то відповідає точно, то галюцинує. Або потрібна інтеграція в корпоративний портал з дотриманням політик безпеки. Розберемо кожен шар стеку в деталях — від RAG до production‑деплою.

Чому RAG‑системи ламаються і як це виправити?

RAG (Retrieval‑Augmented Generation) виглядає просто: знайшли релевантні документи, поклали в контекст, модель відповіла. На практиці збоїть у кількох місцях.

Chunking без перекриття. Класична помилка: chunk_size=512, overlap=0. Якщо відповідь лежить на межі двох чанків, retrieval не знайде жодного з достатньою впевненістю. Рішення: overlap 15–25% від chunk_size, а краще sentence‑aware splitting через spaCy або NLTK, а не наївне розбиття за символами.

Поганий embedder. Текст‑embedding‑ada‑002 — хороший для загального випадку, але на юридичних або медичних текстах програє спеціалізованим моделям: E5‑large‑v2, BGE‑M3 або fine‑tuned sentence‑transformers на доменних даних. Різниця в Recall@5 може становити 15–25%.

Відсутність re‑ranking. Векторний пошук оптимізований за швидкістю, не за релевантністю. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) після первинного retrieval піднімає точність топ‑3 при прийнятній затримці (+50–150 ms). Це часто важливіше за покращення embedding‑моделі.

Гібридний пошук. Тільки dense вектори погано працюють на точних запитах: імена, артикули, коди. BM25 (sparse) добре знаходить точні збіги, але не розуміє семантику. Гібрид через RRF (Reciprocal Rank Fusion) — оптимальний компроміс. Qdrant, Weaviate та pgvector 0.7+ підтримують гібридний пошук нативно.

Типова production‑архітектура корпоративного knowledge base

Документи → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гібридний dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM або OpenAI API)
Відповідь з джерелами (RAGAS для оцінки якості)

Коли варто fine‑tune, а не промпт‑інжиніринг?

Промпт‑інжиніринг вирішує ~70% завдань адаптації LLM під домен. Решта 30% вимагають донавчання. Три ознаки: модель ігнорує специфічний формат виведення навіть при детальному описі в промпті; задача вимагає глибокого знання спеціалізованої лексики (медицина, право); потрібно значно знизити витрати на токени, замінивши велику модель меншою спеціалізованою.

LoRA та QLoRA — стандарт для SFT. LoRA додає trainable low‑rank матриці до attention‑шарів. Типова конфігурація для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — параметрів, що навчаються, ~0.8%, навчання на одній A100 40GB. QLoRA додає 4‑бітну квантизацію (NF4) і дозволяє fine‑tune 70B модель на двох A100 40GB, хоча швидкість падає вдвічі порівняно з bf16.

DPO замість RLHF. Direct Preference Optimization вимагає лише пари (chosen, rejected), а не скалярні reward‑сигнали. DPOTrainer з бібліотеки trl (Hugging Face) реалізує це кількома десятками рядків.

Типова помилка. Датасет з 500 прикладів, 5 епох, validation loss 0.8 — здається норм. Але на тесті модель деградувала на загальних інструкціях. Причина: catastrophic forgetting. Рішення — додати 10–20% загальних instruction‑following прикладів (Alpaca, FLAN) у навчальну вибірку, щоб не зруйнувати вихідні здібності.

Як обрати базову модель: 8B чи 70B?

Модель	Параметри	Сильні сторони	Контекст
Llama‑3.1 8B	8B	Баланс якість/швидкість	128k
Llama‑3.1 70B	70B	Складні міркування	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Ефективність на розмір	32k
Qwen2.5 72B	72B	Код, мультимовність	128k
Gemma 2 27B	27B	Відкрита ліцензія	8k

Для більшості задач fine‑tuning 8B моделі достатньо. 70B потрібен, коли потрібне глибоке міркування або baseline 8B не досягає потрібної якості навіть після донавчання. Вартість інференсу Llama‑3 8B через vLLM на A100 значно нижча, ніж у GPT‑4, що робить його економічно вигідним.

Що дає PagedAttention в production?

vLLM — перший вибір для serving open‑source моделей. PagedAttention — ключове технічне рішення: KV‑cache керується як virtual memory в ОС, без фрагментації. Це дає throughput у 2–4 рази вище порівняно з наївним HuggingFace Transformers inference. Документація vLLM підтверджує: continuous batching та PagedAttention — стандарт для високонавантажених LLM‑сервісів.

Типові числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двох A100 з tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизація AWQ або GPTQ знижує споживання пам'яті в 2 рази при втраті якості в межах 1–3%.

Мультиагентні системи

Агенти — LLM з доступом до інструментів: пошук, виконання коду, запити до API, робота з БД. Основні патерни:

ReAct (Reason + Act): модель розмірковує → обирає інструмент → спостерігає результат → знову розмірковує. LangChain та LlamaIndex реалізують з коробки.
Multi‑agent orchestration: кілька спеціалізованих агентів з координатором зверху. Приклад: coordinator → researcher (пошук + summarization) → coder (генерація та виконання коду) → critic (перевірка). Інструменти: AutoGen (Microsoft), CrewAI, кастомна реалізація на LangGraph.

В продакшені агентні системи недетерміновані. Обов'язкові guardrails, ліміти кроків, логування кожного кроку, human‑in‑the‑loop для критичних дій.

Як ми гарантуємо якість LLM рішення?

Ми використовуємо RAGAS для автоматичної оцінки відповідей: faithfulness, answer relevancy, context precision. Система трекінгу експериментів на базі MLflow фіксує всі метрики, датасети та конфіги. Це дозволяє порівнювати різні гіпотези та доводити покращення з цифрами. Гарантію стабільної роботи забезпечує continuous integration з тестами на специфічних сценаріях (prompt injection, edge‑cases).

Як почати LLM розробку: наступні кроки

Ми передаємо:

Технічну документацію (model card, конфіги, інструкції з розгортання)
Доступ до інфраструктури (репозиторій з кодом, навчені ваги)
1 місяць підтримки після деплою (консультації, виправлення багів)
Навчання команди замовника (2–3 заняття з експлуатації системи)

Терміни: базовий RAG‑прототип — 1–2 тижні. Fine‑tuning з даними замовника — 3–6 тижнів (з урахуванням підготовки даних). Production‑система з моніторингом та перенавчанням — 2–4 місяці.

Етап	Тривалість	Що отримуєте
Аудит та збір даних	1–2 тиж.	Eval‑датасет з 100+ прикладів, формалізація задачі
Baseline (промпт + RAG)	1–2 тиж.	Робочий прототип, метрики якості
Fine‑tuning (якщо потрібно)	2–4 тиж.	Навчена модель, LoRA‑ваги, model card
Деплой та моніторинг	1–2 тиж.	vLLM сервер, Grafana + Prometheus
Документація та навчання	1 тиж.	API‑документація, навчання команди

Вартість розраховується індивідуально і залежить від обсягу даних, складності моделі та вимог до інфраструктури. Хочете оцінити свій проєкт? Зв'яжіться з нами — ми підготуємо попереднє резюме за 1–2 робочі дні. Або замовте консультацію фахівця з вибору підходу: RAG, fine‑tuning або гібрид — розповімо, що підійде саме вам.