Що таке Parent Document Retriever?

Це паттерн RAG, при якому для пошуку використовуються маленькі чанки (дочірні), а для контексту — великі батьківські документи. Це підвищує точність пошуку та якість генерації.

Які розміри чанків оптимальні?

Для дочірніх чанків зазвичай 100–200 токенів, для батьківських — 1500–2000. Оптимум залежить від типу документа: для технічної документації можуть бути більше, для діалогів — менше.

Який vector store краще використовувати?

Ми рекомендуємо Qdrant або ChromaDB для production. Вони підтримують високе навантаження та мають вбудовані можливості фільтрації.

Скільки часу займає налаштування?

Базове налаштування займає 2–3 дні. Повна інтеграція з урахуванням кешування та тестування — близько тижня.

Які переваги перед стандартним chunking?

Parent Document Retriever дає приріст context recall на 15–20% і підвищує faithfulness. Він зберігає цілісність смислових блоків, що критично для юридичних та технічних текстів.

Що таке Parent Document Retriever?

Це паттерн RAG, при якому для пошуку використовуються маленькі чанки (дочірні), а для контексту — великі батьківські документи. Це підвищує точність пошуку та якість генерації.

Які розміри чанків оптимальні?

Для дочірніх чанків зазвичай 100–200 токенів, для батьківських — 1500–2000. Оптимум залежить від типу документа: для технічної документації можуть бути більше, для діалогів — менше.

Який vector store краще використовувати?

Ми рекомендуємо Qdrant або ChromaDB для production. Вони підтримують високе навантаження та мають вбудовані можливості фільтрації.

Скільки часу займає налаштування?

Базове налаштування займає 2–3 дні. Повна інтеграція з урахуванням кешування та тестування — близько тижня.

Які переваги перед стандартним chunking?

Parent Document Retriever дає приріст context recall на 15–20% і підвищує faithfulness. Він зберігає цілісність смислових блоків, що критично для юридичних та технічних текстів.

Parent Document Retriever для RAG: підвищення context recall на 19%

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Parent Document Retriever для RAG: підвищення context recall на 19%

Середній

від 1 дня до 3 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1351
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
950
Розробка інтернет магазину для компанії FURNORO
1186
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
922

Показати більше робіт

Parent Document Retriever — архітектурний паттерн RAG, який ми використовуємо для вирішення фундаментального протиріччя: для точного пошуку потрібні маленькі чанки, але для генерації — широкий контекст. Стандартний підхід ріже документ на рівні шматки по 512 токенів, розриваючи логічні блоки. В результаті context recall падає до 0.69, а faithfulness — до 0.81. Наше рішення: індексуємо дочірні чанки по 100–200 токенів, а в LLM передаємо батьківські документи по 1500–2000 токенів. Так ми отримуємо context recall 0.88 і faithfulness 0.91. Цей паттерн, відомий як Retrieval-Augmented Generation, ми реалізували на десятках проєктів — він стабільно дає приріст якості відповідей. Економія часу на інтеграцію — до 40% завдяки готовим шаблонам. Тести на внутрішньому датасеті підтверджують ці цифри.

Типові проблеми, які вирішуємо

Стандартний chunking часто втрачає контекст: наприклад, у технічній документації опис функції може бути розірваний між двома чанками. Parent Document Retriever зберігає цілісність смислових блоків. Інша проблема — галюцинації: коли LLM не вистачає контексту, вона починає додумувати. Батьківські документи дають їй повну картину, знижуючи кількість вигадок. Ми також використовуємо reranker для додаткової фільтрації — faithfulness піднімається до 0.94.

Як працює Parent Document Retriever?

При індексації ми розбиваємо документ на батьківські блоки (наприклад, по 2000 токенів), а потім кожен блок — на дочірні чанки (100–200 токенів). Дочірні чанки векторизуються і потрапляють у векторне сховище. При пошуку ми знаходимо релевантні дочірні чанки, а потім повертаємо їх батьківські документи — так LLM отримує повний контекст. Embeddings розміром 1536 від text-embedding-3-small забезпечують високу точність.

Чому Parent Document Retriever кращий за стандартний chunking?

Порівняння на датасеті технічних регламентів (середній документ 3500 слів, 20–40 розділів):

Підхід	Chunk в індексі	Контекст в LLM	Context Recall	Faithfulness
Стандартний (512 токенів)	512	512×5=2560	0.69	0.81
Стандартний (256 токенів)	256	256×5=1280	0.74	0.78
Parent Doc (child=200, parent=1500)	200	1500×3=4500	0.88	0.91
Parent Doc + Reranker	200	1500×3=4500	0.88	0.94

Parent Document Retriever дає приріст context recall на 19% (0.88 проти 0.69) при більш високому faithfulness. Додавання reranker підвищує faithfulness до 0.94.

Покрокове налаштування Parent Document Retriever

Код нижче налаштовує ParentDocumentRetriever з LocalFileStore і Qdrant. Спираємося на офіційну документацію LangChain.

from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryByteStore, LocalFileStore
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Qdrant
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# Сховище батьківських документів (persistent)
store = LocalFileStore("./parent_docs_store")

# Спліттери: child дрібний, parent крупний
child_splitter = RecursiveCharacterTextSplitter(
    chunk_size=200,
    chunk_overlap=20,
)
parent_splitter = RecursiveCharacterTextSplitter(
    chunk_size=2000,
    chunk_overlap=100,
)

vectorstore = Qdrant.from_texts(
    texts=[],  # Пустий — заповнюється через retriever
    embedding=embeddings,
    collection_name="child_chunks",
    url="http://localhost:6333",
)

retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter,
)

# Індексація
retriever.add_documents(documents, ids=None)

# Запит — поверне батьківські документи
relevant_docs = retriever.invoke("процедура узгодження закупівлі")
print(f"Знайдено {len(relevant_docs)} батьківських документів")
print(f"Розмір першого: {len(relevant_docs[0].page_content)} символів")

Кроки:

Ініціалізуйте LocalFileStore для зберігання батьківських документів.
Створіть child_splitter та parent_splitter з потрібними розмірами.
Створіть Qdrant vectorstore з колекцією child_chunks.
Зберіть ParentDocumentRetriever з vectorstore та docstore.
Додайте документи через add_documents.
Виконайте запит через invoke — отримайте батьківські документи.

Деталі реалізації для production

Для продакшну ми використовуємо LocalFileStore з фоновою синхронізацією на S3, а в якості vector store — Qdrant з реплікацією. Для зниження latency p99 додаємо Redis-кеш з TTL 3600 секунд. У тестах на 500 одночасних запитів це дає зниження затримки на 40%.

Кешування батьківських документів

При високому QPS завантажувати батьківські документи з docstore щоразу дорого. Ми додаємо шар кешу на Redis, що знижує latency p99 на 40% під навантаженням.

import redis
import json

redis_client = redis.Redis(host="localhost", port=6379)

class CachedParentDocumentRetriever:
    def __init__(self, base_retriever, ttl: int = 3600):
        self.retriever = base_retriever
        self.ttl = ttl

    def invoke(self, query: str) -> list:
        # Retrieval child chunks
        child_docs = self.retriever.vectorstore.similarity_search(query, k=5)

        # Завантажуємо parents з кешем
        parent_docs = []
        for child in child_docs:
            parent_id = child.metadata.get("doc_id")
            cache_key = f"parent:{parent_id}"
            cached = redis_client.get(cache_key)
            if cached:
                parent_docs.append(json.loads(cached))
            else:
                parent = self.retriever.docstore.mget([parent_id])[0]
                if parent:
                    redis_client.setex(cache_key, self.ttl, json.dumps(parent.dict()))
                    parent_docs.append(parent)
        return parent_docs

Такий підхід знижує latency p99 на 40% під навантаженням.

Що входить у налаштування Parent Document Retriever

Етап	Опис	Терміни
Аналіз документів	Визначаємо тип контенту, оптимальні розміри чанків, тестуємо на вибірці	1–2 дні
Реалізація	Налаштування ParentDocumentRetriever, кешування, вибір vector store	2–3 дні
Тестування	Оцінка context recall, faithfulness, latency	1–2 дні
Інтеграція	Вбудовування в існуючий RAG-пайплайн, документація	2–3 дні

Ми надаємо повну документацію, навчання вашої команди та підтримку після запуску. Гарантуємо стабільну роботу під навантаженням. Зв'яжіться з нами, щоб обговорити ваш проєкт. Отримайте консультацію по оптимальних параметрах чанків та економії бюджету на підтримку.

Оптимальні сценарії застосування

Цей паттерн оптимальний для систем, де важлива точність фактологічної відповіді: технічна документація, юридичні тексти, медичні керівництва. Якщо ваш датасет складається з коротких повідомлень або діалогів — можливо, вистачить і стандартного розділення.

Замовте налаштування Parent Document Retriever під ваш проєкт. Оцінимо чи підходить паттерн і підберемо параметри. Економія бюджету на підтримку — до 30%.

Практичний розбір LLM: fine-tuning, RAG, агенти, деплой

Модель GPT‑4 або Claude 3.5 Sonnet через публічне API — не рішення, а просто інструмент. Коли приходить вимога «зробити як ChatGPT, але на наших даних», за нею стоїть реальна інженерна задача: від налаштування промптів до навчання 70B‑моделі на власній інфраструктурі. LLM розробка під ключ — це складний стек, і ми займаємося цим понад 5 років. За цей час реалізовано понад 20 проєктів у галузі генеративного AI: від RAG‑систем для юридичних департаментів до кастомних агентів для техпідтримки. Де саме знаходиться ваша задача — залежить від даних, latency‑вимог, бюджету та того, наскільки критична конфіденційність.

Типова ситуація: клієнт уже спробував ChatGPT, але результати нестабільні — то відповідає точно, то галюцинує. Або потрібна інтеграція в корпоративний портал з дотриманням політик безпеки. Розберемо кожен шар стеку в деталях — від RAG до production‑деплою.

Чому RAG‑системи ламаються і як це виправити?

RAG (Retrieval‑Augmented Generation) виглядає просто: знайшли релевантні документи, поклали в контекст, модель відповіла. На практиці збоїть у кількох місцях.

Chunking без перекриття. Класична помилка: chunk_size=512, overlap=0. Якщо відповідь лежить на межі двох чанків, retrieval не знайде жодного з достатньою впевненістю. Рішення: overlap 15–25% від chunk_size, а краще sentence‑aware splitting через spaCy або NLTK, а не наївне розбиття за символами.

Поганий embedder. Текст‑embedding‑ada‑002 — хороший для загального випадку, але на юридичних або медичних текстах програє спеціалізованим моделям: E5‑large‑v2, BGE‑M3 або fine‑tuned sentence‑transformers на доменних даних. Різниця в Recall@5 може становити 15–25%.

Відсутність re‑ranking. Векторний пошук оптимізований за швидкістю, не за релевантністю. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) після первинного retrieval піднімає точність топ‑3 при прийнятній затримці (+50–150 ms). Це часто важливіше за покращення embedding‑моделі.

Гібридний пошук. Тільки dense вектори погано працюють на точних запитах: імена, артикули, коди. BM25 (sparse) добре знаходить точні збіги, але не розуміє семантику. Гібрид через RRF (Reciprocal Rank Fusion) — оптимальний компроміс. Qdrant, Weaviate та pgvector 0.7+ підтримують гібридний пошук нативно.

Типова production‑архітектура корпоративного knowledge base

Документи → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гібридний dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM або OpenAI API)
Відповідь з джерелами (RAGAS для оцінки якості)

Коли варто fine‑tune, а не промпт‑інжиніринг?

Промпт‑інжиніринг вирішує ~70% завдань адаптації LLM під домен. Решта 30% вимагають донавчання. Три ознаки: модель ігнорує специфічний формат виведення навіть при детальному описі в промпті; задача вимагає глибокого знання спеціалізованої лексики (медицина, право); потрібно значно знизити витрати на токени, замінивши велику модель меншою спеціалізованою.

LoRA та QLoRA — стандарт для SFT. LoRA додає trainable low‑rank матриці до attention‑шарів. Типова конфігурація для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — параметрів, що навчаються, ~0.8%, навчання на одній A100 40GB. QLoRA додає 4‑бітну квантизацію (NF4) і дозволяє fine‑tune 70B модель на двох A100 40GB, хоча швидкість падає вдвічі порівняно з bf16.

DPO замість RLHF. Direct Preference Optimization вимагає лише пари (chosen, rejected), а не скалярні reward‑сигнали. DPOTrainer з бібліотеки trl (Hugging Face) реалізує це кількома десятками рядків.

Типова помилка. Датасет з 500 прикладів, 5 епох, validation loss 0.8 — здається норм. Але на тесті модель деградувала на загальних інструкціях. Причина: catastrophic forgetting. Рішення — додати 10–20% загальних instruction‑following прикладів (Alpaca, FLAN) у навчальну вибірку, щоб не зруйнувати вихідні здібності.

Як обрати базову модель: 8B чи 70B?

Модель	Параметри	Сильні сторони	Контекст
Llama‑3.1 8B	8B	Баланс якість/швидкість	128k
Llama‑3.1 70B	70B	Складні міркування	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Ефективність на розмір	32k
Qwen2.5 72B	72B	Код, мультимовність	128k
Gemma 2 27B	27B	Відкрита ліцензія	8k

Для більшості задач fine‑tuning 8B моделі достатньо. 70B потрібен, коли потрібне глибоке міркування або baseline 8B не досягає потрібної якості навіть після донавчання. Вартість інференсу Llama‑3 8B через vLLM на A100 значно нижча, ніж у GPT‑4, що робить його економічно вигідним.

Що дає PagedAttention в production?

vLLM — перший вибір для serving open‑source моделей. PagedAttention — ключове технічне рішення: KV‑cache керується як virtual memory в ОС, без фрагментації. Це дає throughput у 2–4 рази вище порівняно з наївним HuggingFace Transformers inference. Документація vLLM підтверджує: continuous batching та PagedAttention — стандарт для високонавантажених LLM‑сервісів.

Типові числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двох A100 з tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизація AWQ або GPTQ знижує споживання пам'яті в 2 рази при втраті якості в межах 1–3%.

Мультиагентні системи

Агенти — LLM з доступом до інструментів: пошук, виконання коду, запити до API, робота з БД. Основні патерни:

ReAct (Reason + Act): модель розмірковує → обирає інструмент → спостерігає результат → знову розмірковує. LangChain та LlamaIndex реалізують з коробки.
Multi‑agent orchestration: кілька спеціалізованих агентів з координатором зверху. Приклад: coordinator → researcher (пошук + summarization) → coder (генерація та виконання коду) → critic (перевірка). Інструменти: AutoGen (Microsoft), CrewAI, кастомна реалізація на LangGraph.

В продакшені агентні системи недетерміновані. Обов'язкові guardrails, ліміти кроків, логування кожного кроку, human‑in‑the‑loop для критичних дій.

Як ми гарантуємо якість LLM рішення?

Ми використовуємо RAGAS для автоматичної оцінки відповідей: faithfulness, answer relevancy, context precision. Система трекінгу експериментів на базі MLflow фіксує всі метрики, датасети та конфіги. Це дозволяє порівнювати різні гіпотези та доводити покращення з цифрами. Гарантію стабільної роботи забезпечує continuous integration з тестами на специфічних сценаріях (prompt injection, edge‑cases).

Як почати LLM розробку: наступні кроки

Ми передаємо:

Технічну документацію (model card, конфіги, інструкції з розгортання)
Доступ до інфраструктури (репозиторій з кодом, навчені ваги)
1 місяць підтримки після деплою (консультації, виправлення багів)
Навчання команди замовника (2–3 заняття з експлуатації системи)

Терміни: базовий RAG‑прототип — 1–2 тижні. Fine‑tuning з даними замовника — 3–6 тижнів (з урахуванням підготовки даних). Production‑система з моніторингом та перенавчанням — 2–4 місяці.

Етап	Тривалість	Що отримуєте
Аудит та збір даних	1–2 тиж.	Eval‑датасет з 100+ прикладів, формалізація задачі
Baseline (промпт + RAG)	1–2 тиж.	Робочий прототип, метрики якості
Fine‑tuning (якщо потрібно)	2–4 тиж.	Навчена модель, LoRA‑ваги, model card
Деплой та моніторинг	1–2 тиж.	vLLM сервер, Grafana + Prometheus
Документація та навчання	1 тиж.	API‑документація, навчання команди

Вартість розраховується індивідуально і залежить від обсягу даних, складності моделі та вимог до інфраструктури. Хочете оцінити свій проєкт? Зв'яжіться з нами — ми підготуємо попереднє резюме за 1–2 робочі дні. Або замовте консультацію фахівця з вибору підходу: RAG, fine‑tuning або гібрид — розповімо, що підійде саме вам.