Что такое Multi-Index RAG?

Multi-Index RAG — это архитектура, при которой поиск выполняется по нескольким раздельным векторным индексам, а результаты объединяются в единый контекст для LLM. Это необходимо при работе с разнородными источниками, требующими разных стратегий индексации, или при изоляции данных по доменам.

Какие проблемы решает Multi-Index?

Multi-Index решает проблемы гетерогенных данных: разные типы (структурированные FAQ и длинные регламенты) требуют разных размеров чанков; разные домены (юридические, HR, IT) слабо пересекаются семантически; раздельные индексы дают более точный retrieval. Также решается задача изоляции по безопасности.

Как LLM-роутер выбирает нужные индексы?

LLM-роутер на основе gpt-4o-mini анализирует запрос пользователя и выдает JSON-список релевантных индексов, используя заранее заданные описания. При низкой уверенности запускается поиск по всем индексам с отсечкой по score.

Сколько времени занимает внедрение Multi-Index RAG?

Типичный проект включает проектирование архитектуры (1 неделя), разработку пайплайнов для 5 источников (3-4 недели), настройку LLM-роутера и интеграцию (1 неделя), reranking и оценку (1 неделя). Итого 6-8 недель.

Какие источники можно объединить в одном поиске?

Мы объединяли Confluence, SharePoint, JIRA, GitHub (wiki и README), внутреннюю CRM-документацию, HR-порталы и любые другие источники с API или экспортом. Каждый источник требует собственного парсера и настройки чанков.

Что такое Multi-Index RAG?

Multi-Index RAG — это архитектура, при которой поиск выполняется по нескольким раздельным векторным индексам, а результаты объединяются в единый контекст для LLM. Это необходимо при работе с разнородными источниками, требующими разных стратегий индексации, или при изоляции данных по доменам.

Какие проблемы решает Multi-Index?

Multi-Index решает проблемы гетерогенных данных: разные типы (структурированные FAQ и длинные регламенты) требуют разных размеров чанков; разные домены (юридические, HR, IT) слабо пересекаются семантически; раздельные индексы дают более точный retrieval. Также решается задача изоляции по безопасности.

Как LLM-роутер выбирает нужные индексы?

LLM-роутер на основе gpt-4o-mini анализирует запрос пользователя и выдает JSON-список релевантных индексов, используя заранее заданные описания. При низкой уверенности запускается поиск по всем индексам с отсечкой по score.

Сколько времени занимает внедрение Multi-Index RAG?

Типичный проект включает проектирование архитектуры (1 неделя), разработку пайплайнов для 5 источников (3-4 недели), настройку LLM-роутера и интеграцию (1 неделя), reranking и оценку (1 неделя). Итого 6-8 недель.

Какие источники можно объединить в одном поиске?

Мы объединяли Confluence, SharePoint, JIRA, GitHub (wiki и README), внутреннюю CRM-документацию, HR-порталы и любые другие источники с API или экспортом. Каждый источник требует собственного парсера и настройки чанков.

Реализация Multi-Index RAG: объединение нескольких источников

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Реализация Multi-Index RAG: объединение нескольких источников

Сложный

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1355
Разработка веб-приложения для компании FEEDME
1248
Разработка веб-сайта для компании БЕЛФИНГРУПП
951
Разработка интернет магазина для компании FURNORO
1186
Разработка логотипа компании B2B Advance
643
Разработка веб-приложения для компании Enviok
925

Показать больше работ

Представьте: корпоративная поисковая система должна работать по пяти разным хранилищам — Confluence (5200 страниц), SharePoint (3800 документов), JIRA, GitHub и внутренняя CRM-документация. Монолитный векторный индекс с единым размером чанков неизбежно теряет точность: для коротких FAQ нужны маленькие чанки, для длинных регламентов — большие. В нашей практике мы часто сталкиваемся с такими запросами, и решение — Multi-Index RAG (определение см. в Wikipedia). Эта архитектура позволяет объединить несколько раздельных индексов (векторных хранилищ) в единый поток поиска, сохраняя индивидуальные настройки для каждого типа данных и домена.

Когда нужен Multi-Index RAG?

Разные типы данных: структурированные FAQ (короткие ответы) и длинные регламенты требуют разных размеров чанков и стратегий retrieval. Разные домены: юридическая документация, техническая документация, продуктовые описания — семантические пространства слабо пересекаются, раздельные индексы дают более точный retrieval. Разные источники: Confluence, SharePoint, Notion, GitHub — каждый требует своего парсера и имеет специфические метаданные. Изоляция по безопасности: данные разных отделов хранятся в разных индексах с контролем доступа.

Почему Multi-Index RAG эффективнее монолитного индекса?

Основная идея — создать отдельные индексы для каждого типа/источника, настроить их параметры (размер чанка, модель эмбеддингов) индивидуально, а затем использовать LLM-роутер для выбора релевантных индексов под конкретный запрос. Параллельный асинхронный поиск по выбранным индексам и последующий reranking объединённых результатов дают высокую точность. В одном из проектов внедрение Multi-Index RAG повысило Context Recall с 0.71 до 0.88 — прирост на 24%. Экономия времени сотрудников на поиск информации сокращает операционные затраты.

Тип данных	Оптимальный размер чанка	Стратегия чанкинга
FAQ	200-300 токенов	По вопросам
Регламенты	1000-1500 токенов	По разделам
Код	500-800 токенов	По функциям

Архитектура Multi-Index RAG

from typing import Optional
from langchain_community.vectorstores import Qdrant
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.schema import Document
import asyncio

class MultiIndexRAG:
    def __init__(self, embeddings, llm):
        self.embeddings = embeddings
        self.llm = llm
        self.indexes: dict[str, Qdrant] = {}
        self.router_llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

    def add_index(self, name: str, collection: str, description: str):
        """Регистрируем индекс с описанием для роутера"""
        self.indexes[name] = {
            "retriever": Qdrant.from_existing_collection(
                embeddings=self.embeddings,
                collection_name=collection,
                url="http://localhost:6333",
            ).as_retriever(search_kwargs={"k": 5}),
            "description": description,
        }

    def route_query(self, query: str) -> list[str]:
        """LLM-роутер определяет релевантные индексы"""
        index_descriptions = "\n".join([
            f"- {name}: {info['description']}"
            for name, info in self.indexes.items()
        ])

        response = self.router_llm.invoke(f"""
Определи, в каких из следующих индексов нужно искать для ответа на запрос.
Верни JSON-список имён индексов.

Доступные индексы:
{index_descriptions}

Запрос: {query}

Ответ (JSON список):""")

        import json
        try:
            return json.loads(response.content)
        except:
            return list(self.indexes.keys())  # Fallback: все индексы

    async def _search_index(self, index_name: str, query: str) -> tuple[str, list]:
        """Асинхронный поиск в одном индексе"""
        retriever = self.indexes[index_name]["retriever"]
        docs = await asyncio.to_thread(retriever.invoke, query)
        return index_name, docs

    async def retrieve(self, query: str) -> dict[str, list]:
        """Параллельный поиск по релевантным индексам"""
        relevant_indexes = self.route_query(query)

        tasks = [
            self._search_index(idx, query)
            for idx in relevant_indexes
            if idx in self.indexes
        ]

        results = await asyncio.gather(*tasks)
        return dict(results)

    def build_context(self, search_results: dict[str, list]) -> str:
        """Собираем контекст из нескольких индексов"""
        context_parts = []
        for index_name, docs in search_results.items():
            if docs:
                context_parts.append(f"## Источник: {index_name}\n")
                for doc in docs:
                    context_parts.append(f"- {doc.page_content}\n")

        return "\n".join(context_parts)

Настройка индексов для корпоративной базы знаний

rag = MultiIndexRAG(
    embeddings=OpenAIEmbeddings(model="text-embedding-3-small"),
    llm=ChatOpenAI(model="gpt-4o", temperature=0),
)

rag.add_index(
    name="legal",
    collection="legal_contracts",
    description="Договоры, соглашения, юридические заключения",
)
rag.add_index(
    name="hr",
    collection="hr_policies",
    description="Политики HR: отпуска, командировки, найм, увольнение",
)
rag.add_index(
    name="it",
    collection="it_procedures",
    description="IT-процедуры: доступы, оборудование, информационная безопасность",
)
rag.add_index(
    name="finance",
    collection="finance_regulations",
    description="Финансовые регламенты: бюджет, закупки, авансовые отчёты",
)
rag.add_index(
    name="faq",
    collection="general_faq",
    description="Общие часто задаваемые вопросы сотрудников",
)

Reranking объединённых результатов

После сбора результатов из нескольких индексов важно перемешать и переранжировать:

from flashrank import Ranker, RerankRequest

ranker = Ranker(model_name="ms-marco-MiniLM-L-12-v2")

def rerank_multi_index_results(
    query: str,
    search_results: dict[str, list[Document]],
    top_n: int = 6,
) -> list[Document]:
    """Объединяет и переранжирует результаты из разных индексов"""

    # Собираем все документы
    all_docs = []
    for docs in search_results.values():
        all_docs.extend(docs)

    if not all_docs:
        return []

    # Reranking
    passages = [{"id": i, "text": doc.page_content} for i, doc in enumerate(all_docs)]
    rerank_req = RerankRequest(query=query, passages=passages)
    ranked = ranker.rerank(rerank_req)

    return [all_docs[r["id"]] for r in ranked[:top_n]]

Практический кейс: корпоративный ассистент из 5 источников

В одном из проектов мы внедрили Multi-Index RAG для крупной компании с пятью источниками: Confluence (5200 страниц), SharePoint (3800 документов), JIRA (экспорт задач), GitHub (wiki, README), внутренняя CRM-документация.

Проблема монолитного индекса: разные типы контента имеют разные оптимальные размеры чанков. README из GitHub оптимально индексировать по-функционально (блоки кода + описание), Confluence-страницы — по разделам, CRM-документацию — по ответам.

Конфигурация Multi-Index:

5 раздельных коллекций в Qdrant
LLM-роутер на GPT-4o-mini (~15 мс overhead)
Параллельный поиск (async) сокращает latency с 5×T до 1.2×T

Метрика	Монолитный индекс	Multi-Index
Context Recall	0.71	0.88
Precision@5	0.74	0.86
Latency P95	1.2 с	1.5 с
Routing accuracy	—	91%

Failure cases: 9% запросов попадают в неправильный набор индексов — преимущественно кросс-доменные вопросы. Решение: при низком router confidence запускать поиск по всем индексам с threshold отсечки по score.

Федеративный поиск с access control

def retrieve_with_permissions(
    query: str,
    user_id: str,
    permission_service,
) -> dict[str, list]:
    """Поиск только по разрешённым для пользователя индексам"""
    allowed_indexes = permission_service.get_allowed_indexes(user_id)
    relevant_indexes = [
        idx for idx in route_query(query)
        if idx in allowed_indexes
    ]
    return {idx: search(idx, query) for idx in relevant_indexes}

Что входит в работу

Аудит источников данных и контента
Проектирование Multi-Index архитектуры под ваши сценарии
Разработка ingestion пайплайнов для каждого источника
Настройка LLM-роутера и reranking
Интеграция с существующей инфраструктурой (Qdrant, Pinecone, pgvector)
Документация архитектуры и конфигураций
Обучение команды заказчика
Пост-релизная поддержка в течение 3 месяцев

Процесс работы

Аналитика: изучаем типы данных, их объёмы, требования к безопасности.
Проектирование: выбираем стэк (векторные БД, модели эмбеддингов, LLM-роутер).
Разработка: пишем парсеры, настраиваем чанкинг, индексацию, роутинг.
Тестирование: оцениваем метрики Recall, Precision, latency.
Деплой: разворачиваем на инфраструктуре заказчика (on-prem или облако).

Сроки ориентировочно

Проектирование Multi-Index архитектуры: 1 неделя
Разработка ingestion пайплайнов (5 источников): 3–4 недели
LLM-роутер и интеграция: 1 неделя
Reranking и оценка: 1 неделя
Итого: 6–8 недель

Свяжитесь с нами для консультации и оценки вашего проекта. Закажите внедрение Multi-Index RAG — получите точный поиск по всем вашим источникам. Наш опыт в RAG-архитектурах и 20+ реализованных проектов гарантируют высокое качество.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.