Что такое Parent Document Retriever?

Это паттерн RAG, при котором для поиска используются маленькие чанки (дочерние), а для контекста — большие родительские документы. Это повышает точность поиска и качество генерации.

Какие размеры чанков оптимальны?

Для дочерних чанков обычно 100–200 токенов, для родительских — 1500–2000. Оптимум зависит от типа документа: для технической документации могут быть больше, для диалогов — меньше.

Какой vector store лучше использовать?

Мы рекомендуем Qdrant или ChromaDB для production. Они поддерживают высокую нагрузку и имеют встроенные возможности фильтрации.

Сколько времени занимает настройка?

Базовая настройка занимает 2–3 дня. Полная интеграция с учётом кеширования и тестирования — около недели.

Какие преимущества перед стандартным chunking?

Parent Document Retriever даёт прирост context recall на 15–20% и повышает faithfulness. Он сохраняет целостность смысловых блоков, что критично для юридических и технических текстов.

Что такое Parent Document Retriever?

Это паттерн RAG, при котором для поиска используются маленькие чанки (дочерние), а для контекста — большие родительские документы. Это повышает точность поиска и качество генерации.

Какие размеры чанков оптимальны?

Для дочерних чанков обычно 100–200 токенов, для родительских — 1500–2000. Оптимум зависит от типа документа: для технической документации могут быть больше, для диалогов — меньше.

Какой vector store лучше использовать?

Мы рекомендуем Qdrant или ChromaDB для production. Они поддерживают высокую нагрузку и имеют встроенные возможности фильтрации.

Сколько времени занимает настройка?

Базовая настройка занимает 2–3 дня. Полная интеграция с учётом кеширования и тестирования — около недели.

Какие преимущества перед стандартным chunking?

Parent Document Retriever даёт прирост context recall на 15–20% и повышает faithfulness. Он сохраняет целостность смысловых блоков, что критично для юридических и технических текстов.

Parent Document Retriever для RAG: повышение context recall на 19%

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Parent Document Retriever для RAG: повышение context recall на 19%

Средний

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1351
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
950
Разработка интернет магазина для компании FURNORO
1186
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
922

Показать больше работ

Parent Document Retriever — архитектурный паттерн RAG, который мы используем для решения фундаментального противоречия: для точного поиска нужны маленькие чанки, но для генерации — широкий контекст. Стандартный подход режет документ на равные куски по 512 токенов, рвя логические блоки. В результате context recall падает до 0.69, а faithfulness — до 0.81. Наше решение: индексируем дочерние чанки по 100–200 токенов, а в LLM передаём родительские документы по 1500–2000 токенов. Так мы получаем context recall 0.88 и faithfulness 0.91. Этот паттерн, известный как Retrieval-Augmented Generation, мы реализовали на десятках проектов — он стабильно даёт прирост качества ответов. Экономия времени на интеграцию — до 40% за счёт готовых шаблонов. Тесты на внутреннем датасете подтверждают эти цифры.

Типичные проблемы, которые решаем

Стандартный chunking часто теряет контекст: например, в технической документации описание функции может быть разорвано между двумя чанками. Parent Document Retriever сохраняет целостность смысловых блоков. Другая проблема — галлюцинации: когда LLM не хватает контекста, она начинает додумывать. Родительские документы дают ей полную картину, снижая число выдумок. Мы также используем reranker для дополнительной фильтрации — faithfulness поднимается до 0.94.

Как работает Parent Document Retriever?

При индексации мы разбиваем документ на родительские блоки (например, по 2000 токенов), а затем каждый блок — на дочерние чанки (100–200 токенов). Дочерние чанки векторизуются и попадают в векторное хранилище. При поиске мы находим релевантные дочерние чанки, а затем возвращаем их родительские документы — так LLM получает полный контекст. Embeddings размером 1536 от text-embedding-3-small обеспечивают высокую точность.

Почему Parent Document Retriever лучше стандартного chunking?

Сравнение на датасете технических регламентов (средний документ 3500 слов, 20–40 разделов):

Подход	Chunk в индексе	Контекст в LLM	Context Recall	Faithfulness
Стандартный (512 токенов)	512	512×5=2560	0.69	0.81
Стандартный (256 токенов)	256	256×5=1280	0.74	0.78
Parent Doc (child=200, parent=1500)	200	1500×3=4500	0.88	0.91
Parent Doc + Reranker	200	1500×3=4500	0.88	0.94

Parent Document Retriever даёт прирост context recall на 19% (0.88 против 0.69) при более высоком faithfulness. Добавление reranker повышает faithfulness до 0.94.

Пошаговая настройка Parent Document Retriever

Код ниже настраивает ParentDocumentRetriever с LocalFileStore и Qdrant. Опираемся на официальную документацию LangChain.

from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryByteStore, LocalFileStore
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Qdrant
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# Хранилище родительских документов (persistent)
store = LocalFileStore("./parent_docs_store")

# Сплиттеры: child мелкий, parent крупный
child_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,
    chunk_overlap=20,
)
parent_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000,
    chunk_overlap=100,
)

vectorstore = Qdrant.from_texts(
    texts=[],  # Пустой — заполняется через retriever
    embedding=embeddings,
    collection_name="child_chunks",
    url="http://localhost:6333",
)

retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter,
)

# Индексация
retriever.add_documents(documents, ids=None)

# Запрос — вернёт родительские документы
relevant_docs = retriever.invoke("процедура согласования закупки")
print(f"Найдено {len(relevant_docs)} родительских документов")
print(f"Размер первого: {len(relevant_docs[0].page_content)} символов")

Шаги:

Инициализируйте LocalFileStore для хранения родительских документов.
Создайте child_splitter и parent_splitter с нужными размерами.
Создайте Qdrant vectorstore с коллекцией child_chunks.
Соберите ParentDocumentRetriever с vectorstore и docstore.
Добавьте документы через add_documents.
Выполните запрос через invoke — получите родительские документы.

Детали реализации для production

Для продакшена мы используем LocalFileStore с фоновой синхронизацией на S3, а в качестве vector store — Qdrant с репликацией. Для снижения latency p99 добавляем Redis-кеш с TTL 3600 секунд. В тестах на 500 одновременных запросов это даёт снижение задержки на 40%.

Кеширование родительских документов

При высоком QPS загружать родительские документы из docstore каждый раз дорого. Мы добавляем слой кеша на Redis, что снижает latency p99 на 40% под нагрузкой.

import redis
import json

redis_client = redis.Redis(host="localhost", port=6379)

class CachedParentDocumentRetriever:
    def __init__(self, base_retriever, ttl: int = 3600):
        self.retriever = base_retriever
        self.ttl = ttl

    def invoke(self, query: str) -> list:
        # Retrieval child chunks
        child_docs = self.retriever.vectorstore.similarity_search(query, k=5)

        # Загружаем parents с кешем
        parent_docs = []
        for child in child_docs:
            parent_id = child.metadata.get("doc_id")
            cache_key = f"parent:{parent_id}"
            cached = redis_client.get(cache_key)
            if cached:
                parent_docs.append(json.loads(cached))
            else:
                parent = self.retriever.docstore.mget([parent_id])[0]
                if parent:
                    redis_client.setex(cache_key, self.ttl, json.dumps(parent.dict()))
                    parent_docs.append(parent)
        return parent_docs

Такой подход снижает latency p99 на 40% под нагрузкой.

Что входит в настройку Parent Document Retriever

Этап	Описание	Сроки
Анализ документов	Определяем тип контента, оптимальные размеры чанков, тестируем на выборке	1–2 дня
Реализация	Настройка ParentDocumentRetriever, кеширования, выбор vector store	2–3 дня
Тестирование	Оценка context recall, faithfulness, latency	1–2 дня
Интеграция	Встраивание в существующий RAG-пайплайн, документация	2–3 дня

Мы предоставляем полную документацию, обучение вашей команды и поддержку после запуска. Гарантируем стабильную работу под нагрузкой. Свяжитесь с нами, чтобы обсудить ваш проект. Получите консультацию по оптимальным параметрам чанков и экономии бюджета на поддержку.

Оптимальные сценарии применения

Этот паттерн оптимален для систем, где важна точность фактологического ответа: техническая документация, юридические тексты, медицинские руководства. Если ваш датасет состоит из коротких сообщений или диалогов — возможно, хватит и стандартного разделения.

Закажите настройку Parent Document Retriever под ваш проект. Оценим подходит ли паттерн и подберем параметры. Экономия бюджета на поддержку — до 30%.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.