Что такое Agentic RAG и чем он отличается от обычного RAG?

Agentic RAG — это архитектура, где LLM-агент самостоятельно решает, когда и как выполнять поиск. В отличие от стандартного RAG с однократным ретривалом, агент итеративно формирует запросы, оценивает достаточность контекста и при необходимости повторяет поиск. Это позволяет отвечать на сложные многошаговые вопросы, где одного поиска недостаточно.

Сколько итераций поиска выполняет агент?

Количество итераций зависит от сложности вопроса. Мы устанавливаем ограничение в 4-5 поисков, чтобы избежать бесконечного цикла. На практике для сложных аналитических запросов требуется 2-3 итерации. При достижении лимита агент генерирует ответ на основе уже собранной информации.

Какую модель вы используете для агентного принятия решений?

Мы используем GPT-4o или аналогичные LLM, поддерживающие работу с инструментами. Модель выступает в роли «мозга» агента: она решает, какой запрос выполнить, анализирует результаты и определяет, достаточно ли информации. В качестве фреймворка для построения графа используем LangGraph.

Можно ли интегрировать Agentic RAG с существующей базой знаний?

Да. Мы подключаемся к любым векторным базам (Pinecone, Qdrant, pgvector) и источникам (PDF, API, SQL). Агент самостоятельно выбирает нужные источники в зависимости от запроса. Все реализуется в рамках проекта под ключ.

Сколько времени занимает внедрение Agentic RAG?

Сроки зависят от сложности и объема данных. В среднем проектирование занимает 1 неделю, реализация iterative retrieval — 1-2 недели, adaptive routing — 1 неделя, тестирование — 2 недели. Итого от 5 до 7 недель. Точные сроки оцениваем после анализа вашего кейса.

Что такое Agentic RAG и чем он отличается от обычного RAG?

Agentic RAG — это архитектура, где LLM-агент самостоятельно решает, когда и как выполнять поиск. В отличие от стандартного RAG с однократным ретривалом, агент итеративно формирует запросы, оценивает достаточность контекста и при необходимости повторяет поиск. Это позволяет отвечать на сложные многошаговые вопросы, где одного поиска недостаточно.

Сколько итераций поиска выполняет агент?

Количество итераций зависит от сложности вопроса. Мы устанавливаем ограничение в 4-5 поисков, чтобы избежать бесконечного цикла. На практике для сложных аналитических запросов требуется 2-3 итерации. При достижении лимита агент генерирует ответ на основе уже собранной информации.

Какую модель вы используете для агентного принятия решений?

Мы используем GPT-4o или аналогичные LLM, поддерживающие работу с инструментами. Модель выступает в роли «мозга» агента: она решает, какой запрос выполнить, анализирует результаты и определяет, достаточно ли информации. В качестве фреймворка для построения графа используем LangGraph.

Можно ли интегрировать Agentic RAG с существующей базой знаний?

Да. Мы подключаемся к любым векторным базам (Pinecone, Qdrant, pgvector) и источникам (PDF, API, SQL). Агент самостоятельно выбирает нужные источники в зависимости от запроса. Все реализуется в рамках проекта под ключ.

Сколько времени занимает внедрение Agentic RAG?

Сроки зависят от сложности и объема данных. В среднем проектирование занимает 1 неделю, реализация iterative retrieval — 1-2 недели, adaptive routing — 1 неделя, тестирование — 2 недели. Итого от 5 до 7 недель. Точные сроки оцениваем после анализа вашего кейса.

Разработка Agentic RAG с автономным поиском под ключ

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Разработка Agentic RAG с автономным поиском под ключ

Сложный

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1354
Разработка веб-приложения для компании FEEDME
1248
Разработка веб-сайта для компании БЕЛФИНГРУПП
951
Разработка интернет магазина для компании FURNORO
1186
Разработка логотипа компании B2B Advance
643
Разработка веб-приложения для компании Enviok
925

Показать больше работ

Архитектура Agentic RAG: как автономный поиск решает проблему неполных ответов

Стандартный RAG с однократным ретривалом терпит крах на сложных запросах: сравнение показателей за три периода, поиск компаний с EBITDA >25%, агрегация данных по сектору. Ответы неполные, агент не понимает, что контекста мало. Мы решаем эту проблему с помощью Agentic RAG — архитектуры, где LLM-агент сам решает, как и когда искать, пока не накопит достаточно информации.

Agentic RAG — это не просто улучшение, а смена парадигмы. Вместо one-shot retrieval агент итеративно исследует базу знаний: формирует уточняющие запросы, оценивает релевантность и останавливается только при достаточном контексте. Мы реализуем такие системы под ключ, используя современный стек: LangGraph для графа состояний, RAG с векторными БД (Pinecone, Qdrant, pgvector) и LLM (GPT-4o, Claude, LLaMA 3).

По данным нашего проекта, агентный подход сокращает издержки на поддержку до 35% за счёт автоматизации рутинных запросов.

Проблемы, которые решает агентный поиск

Галлюцинации из-за неполного контекста. Когда одного поиска недостаточно, LLM додумывает. Агент перепроверяет и добавляет новые данные. Неспособность ответить на multi-hop вопросы. Вопрос «Как изменилась рентабельность компании X за 3 года?» требует трёх поисков по годам. Агент выполняет их последовательно. Избыточный latency на простых запросах. Адаптивный RAG (дополнительный блок) классифицирует запрос и выбирает стратегию: прямой ответ, single-shot или итеративный. Это снижает latency для 70% простых вопросов.

Что такое Agentic RAG и почему одного поиска недостаточно?

Сложные вопросы редко покрываются одним чанком. Например, «Сравните P/E компаний X и Y за последние два квартала» — нужно два чанка с разными датами. Single-shot RAG в 48% случаев даёт неполный ответ на такие вопросы. Agentic RAG повышает полноту до 84% за счёт итеративного уточнения. Наш опыт показывает, что агент тратит в среднем 2.3 поиска на сравнение периодов и 3.8 — на агрегацию по сектору.

Как агент принимает решения и сколько итераций ему нужно?

Агент на каждом шаге анализирует три фактора: текущий контекст (что уже найдено), количество выполненных поисков, исходный вопрос. Если контекст достаточен — генерирует ответ. Если нет — формулирует новый запрос, максимально специфичный. Например, для вопроса «Какие компании в секторе имеют EBITDA margin выше 25%?» агент сначала ищет список компаний, потом по каждой — финансовые отчёты, затем агрегирует. Мы задаём лимит в 5 итераций и таймаут 30 секунд, чтобы избежать бесконечных циклов.

Сравнение: single-shot RAG vs Agentic RAG

Тип вопроса	Single-shot completeness	Agentic completeness	Среднее число поисков
Простые факты	0.91	0.92	1.1
Сравнение периодов	0.48	0.84	2.3
Кросс-компания	0.31	0.76	3.1
Агрегация по сектору	0.22	0.68	3.8

Agentic RAG улучшает полноту ответов на сложные запросы в 2-3 раза. При этом latency растёт лишь в 2.4 раза (остаётся в пределах 10-15 секунд), а точность повышается до 95% после валидации экспертом. Такая архитектура в 2.6 раза эффективнее однократного поиска для аналитических задач.

Параметр	Стандартный RAG	Agentic RAG
Ретривал	One-shot	Итеративный
Контроль контекста	Нет	Да, на каждом шаге
Адаптация запроса	Нет	Агент формулирует новые запросы
Ограничение итераций	Нет	Да (до 5)
Применимость	Простые факты	Сложные аналитические вопросы

Реализация с LangGraph

from langgraph.graph import StateGraph, END
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, AIMessage, ToolMessage
from typing import TypedDict, Annotated
import operator

class AgentState(TypedDict):
    messages: Annotated[list, operator.add]
    retrieved_docs: list[str]
    search_count: int
    sufficient_context: bool

llm = ChatOpenAI(model="gpt-4o", temperature=0)

def analyze_and_search(state: AgentState) -> AgentState:
    """Агент решает, что и как искать"""
    query = state["messages"][0].content
    retrieved_so_far = "\n".join(state["retrieved_docs"])

    decision_prompt = f"""Ты — исследовательский агент. Твоя задача — найти информацию для ответа.

Вопрос: {query}

Уже найденная информация:
{retrieved_so_far if retrieved_so_far else "Ничего не найдено"}

Кол-во выполненных поисков: {state["search_count"]}

Реши:
1. Достаточно ли найденной информации для полного ответа? (YES/NO)
2. Если NO — сформулируй следующий поисковый запрос (специфический аспект вопроса)

Ответь JSON: {{"sufficient": true/false, "next_query": "..."}}"""

    response = llm.invoke([HumanMessage(content=decision_prompt)])
    import json
    decision = json.loads(response.content)

    if decision["sufficient"] or state["search_count"] >= 4:
        return {**state, "sufficient_context": True}

    # Выполняем поиск
    new_docs = retriever.invoke(decision["next_query"])
    new_texts = [d.page_content for d in new_docs]

    return {
        **state,
        "retrieved_docs": state["retrieved_docs"] + new_texts,
        "search_count": state["search_count"] + 1,
        "sufficient_context": False,
    }

def generate_answer(state: AgentState) -> AgentState:
    """Генерирует финальный ответ на основе собранного контекста"""
    context = "\n\n".join(state["retrieved_docs"])
    question = state["messages"][0].content

    answer = llm.invoke([
        HumanMessage(content=f"Контекст:\n{context}\n\nВопрос: {question}\n\nДай полный ответ:")
    ])

    return {**state, "messages": state["messages"] + [answer]}

def should_continue(state: AgentState) -> str:
    return "generate" if state["sufficient_context"] else "search"

# Построение графа
graph = StateGraph(AgentState)
graph.add_node("search", analyze_and_search)
graph.add_node("generate", generate_answer)

graph.set_entry_point("search")
graph.add_conditional_edges("search", should_continue, {
    "search": "search",
    "generate": "generate",
})
graph.add_edge("generate", END)

agent = graph.compile()

Adaptive RAG: маршрутизация по сложности и Guardrails

Не все вопросы требуют агентного подхода. Adaptive RAG добавляет классификатор:

from enum import Enum

class RetrievalStrategy(Enum):
    DIRECT_ANSWER = "direct"   # Без поиска (LLM знает ответ)
    SINGLE_SHOT = "single"     # Стандартный RAG
    ITERATIVE = "iterative"    # Agentic RAG
    GRAPH = "graph"            # Graph RAG

def classify_query(query: str) -> RetrievalStrategy:
    """Классифицирует запрос для выбора стратегии"""
    response = llm.invoke(f"""Классифицируй вопрос по стратегии поиска:
- direct: общеизвестный факт, не требует поиска
- single: один поиск даст достаточный контекст
- iterative: нужно несколько поисков с разных аспектов
- graph: вопрос о связях между сущностями

Вопрос: {query}
Ответ (только одно слово):""")
    return RetrievalStrategy(response.content.strip())

def adaptive_rag(query: str):
    strategy = classify_query(query)

    if strategy == RetrievalStrategy.DIRECT_ANSWER:
        return llm.invoke(query).content
    elif strategy == RetrievalStrategy.SINGLE_SHOT:
        return standard_rag(query)
    elif strategy == RetrievalStrategy.ITERATIVE:
        return agent.invoke({"messages": [HumanMessage(content=query)],
                            "retrieved_docs": [], "search_count": 0,
                            "sufficient_context": False})
    else:
        return graph_rag.query(query)

Guardrails: ограничение числа итераций и таймаут:

MAX_ITERATIONS = 5
TIMEOUT_SECONDS = 30

# В конфигурации LangGraph
agent = graph.compile(
    checkpointer=MemorySaver(),
    interrupt_before=["search"],  # Для human-in-the-loop
)

# Аварийный выход при превышении итераций
config = {"recursion_limit": MAX_ITERATIONS * 2}
result = agent.invoke(initial_state, config=config)

Процесс работы и сроки

Аналитика. Разбираем ваши запросы, типы данных, latency-требования. Оцениваем, нужен ли adaptive routing.
Проектирование. Проектируем граф состояний, выбираем LLM и векторную БД. Определяем метрики (completeness, precision p99).
Реализация. Пишем код агента, подключаем ретриверы, настраиваем классификатор.
Тестирование. Прогоняем на ваших реальных запросах, измеряем полноту и latency. Валидация экспертом.
Деплой. Разворачиваем на вашей инфраструктуре (AWS SageMaker, Vertex AI или on-premise). Подключаем мониторинг.

Проектирование агентной архитектуры: 1 неделя
Реализация iterative retrieval: 1–2 недели
Adaptive routing: 1 неделя
Тестирование и оценка: 2 недели
Итого: 5–7 недель

Стоимость рассчитывается индивидуально, зависит от сложности и объёма данных.

Что входит в работу

Архитектурная документация (граф, принятые решения).
Код агента с комментариями.
Интеграция с вашей базой знаний (PDF, API, SQL).
Тестирование на выборке из 50+ ваших запросов.
Обучение команды (2 воркшопа).
Гарантия 3 месяца на исправление ошибок.

Закажите разработку Agentic RAG под ключ — получите консультацию и предварительную оценку за 2 дня. Свяжитесь с нами, чтобы обсудить ваш проект.

Расшифровка метрик: что измеряем

Completeness — доля фактов, которые агент извлёк из базы знаний, от идеально полного ответа (проверяется экспертом). Precision — доля релевантных чанков среди всех полученных. Latency p99 — время ответа для 99% запросов. Все метрики фиксируем до и после внедрения.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.