Как работает AI-поиск по внутренней документации?

Система использует RAG (retrieval augmented generation): документы разбиваются на чанки, индексируются эмбеддингами модели (например, multilingual-e5-large). По запросу ищутся семантически близкие чанки, реранжируются, и LLM формирует ответ с цитатами источников.

Какие модели и инструменты используются?

Мы применяем открытые эмбеддинговые модели (intfloat/multilingual-e5-large, BGE), векторные базы (Qdrant, pgvector), фреймворки LlamaIndex или LangChain, LLM для генерации (GPT-4o, Claude, Mistral). Выбор зависит от языка и требований к конфиденциальности.

Сколько времени занимает внедрение такого решения?

Базовый RAG-поиск по Confluence/Notion — 2–3 недели. С Slack-ботом и автоматическим обновлением — 3–5 недель. Полноценная система с аналитикой запросов — 6–8 недель.

Какие данные можно индексировать?

Любые текстовые документы: страницы Confluence, Notion, Google Docs, Markdown-файлы, PDF. Также поддерживаются таблицы и код. Главное — наличие иерархической структуры, которую система учитывает при чанкинге.

Как обеспечивается актуальность индекса?

Реализовано инкрементальное обновление: система отслеживает изменения в исходных документах по временным меткам и переиндексирует только изменённые страницы. Это снижает нагрузку и гарантирует свежесть данных.

Как работает AI-поиск по внутренней документации?

Система использует RAG (retrieval augmented generation): документы разбиваются на чанки, индексируются эмбеддингами модели (например, multilingual-e5-large). По запросу ищутся семантически близкие чанки, реранжируются, и LLM формирует ответ с цитатами источников.

Какие модели и инструменты используются?

Мы применяем открытые эмбеддинговые модели (intfloat/multilingual-e5-large, BGE), векторные базы (Qdrant, pgvector), фреймворки LlamaIndex или LangChain, LLM для генерации (GPT-4o, Claude, Mistral). Выбор зависит от языка и требований к конфиденциальности.

Сколько времени занимает внедрение такого решения?

Базовый RAG-поиск по Confluence/Notion — 2–3 недели. С Slack-ботом и автоматическим обновлением — 3–5 недель. Полноценная система с аналитикой запросов — 6–8 недель.

Какие данные можно индексировать?

Любые текстовые документы: страницы Confluence, Notion, Google Docs, Markdown-файлы, PDF. Также поддерживаются таблицы и код. Главное — наличие иерархической структуры, которую система учитывает при чанкинге.

Как обеспечивается актуальность индекса?

Реализовано инкрементальное обновление: система отслеживает изменения в исходных документах по временным меткам и переиндексирует только изменённые страницы. Это снижает нагрузку и гарантирует свежесть данных.

AI-поиск по документации: RAG и семантический поиск

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

AI-поиск по документации: RAG и семантический поиск

Средний

~2-4 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1250
Разработка веб-сайта для компании БЕЛФИНГРУПП
956
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

В Confluence 1200 страниц, полсотни авторов — никто не помнит, где лежит инструкция по VPN. Сотрудники тратят в среднем 20 минут на поиск, а чаще переспрашивают в чатах. Keyword-поиск выдаёт список статей без понимания контекста. RAG-система меняет это: вы задаёте вопрос — получаете ответ с цитатами за 10 секунд. Мы разрабатываем такие системы более 5 лет и внедрили 15+ проектов. Средняя экономия составила $1 500 в месяц, а окупаемость — 4 месяца. Для одного клиента экономия достигла $15 000 в год за счёт сокращения времени инженеров.

Как работает семантический поиск?

Сборка индекса на LlamaIndex с Qdrant в качестве векторного стора и моделью эмбеддингов HuggingFace. Документы разбиваются на чанки, векторизуются и сохраняются в векторной БД. По запросу ищутся семантически близкие чанки, реранжируются cross-encoder моделью, и LLM генерирует финальный ответ с цитатами. Для русско-английских баз используем multilingual-e5-large (1024d) — он даёт на 15% больше recall, чем BGE-small. Источник: документация LlamaIndex. Вот ключевой фрагмент кода:

from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.retrievers import VectorIndexRetriever
from llama_index.core.query_engine import RetrieverQueryEngine
from llama_index.core.postprocessor import SentenceTransformerRerank
from llama_index.vector_stores.qdrant import QdrantVectorStore
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
import qdrant_client

embed_model = HuggingFaceEmbedding(
    model_name="intfloat/multilingual-e5-large",
    embed_batch_size=32
)

splitter = SentenceSplitter(
    chunk_size=512,
    chunk_overlap=64,
    paragraph_separator="\n\n"
)

reranker = SentenceTransformerRerank(
    model="cross-encoder/ms-marco-MiniLM-L-6-v2",
    top_n=5
)

client = qdrant_client.QdrantClient(url="http://localhost:6333")
vector_store = QdrantVectorStore(client=client, collection_name="kb_docs")

index = VectorStoreIndex.from_vector_store(
    vector_store=vector_store,
    embed_model=embed_model
)

query_engine = RetrieverQueryEngine(
    retriever=VectorIndexRetriever(index=index, similarity_top_k=15),
    node_postprocessors=[reranker],
)

Почему parent-child chunking необходим?

Документация иерархична: раздел, подраздел, параграф. Наивный чанкинг по 512 токенов разрезает логические блоки. Решение — parent-child chunking: мелкие чанки для поиска, крупные для контекста. Это даёт faithfulness +12% и relevance +18% по сравнению с flat chunking.

Параметр	Flat chunking	Parent-child chunking
Faithfulness (RAGAS)	0.68	0.76
Relevance (RAGAS)	0.72	0.85

Как настроить инкрементальное обновление?

Ключевые шаги настройки RAG-пайплайна

Соберите список всех источников (Confluence, Notion, Google Docs).
Выберите модель эмбеддингов (multilingual-e5-large для русского+английского).
Настройте parent-child chunking с размером parent=1024 токенов, child=256.
Разверните векторную БД (Qdrant или pgvector).
Реализуйте инкрементальный сборщик изменений по API.
Подключите реранкер (cross-encoder) для повышения точности.
Интегрируйте LLM (GPT-4o или Claude) для генерации ответов.

class DocumentationIndexer:
    def __init__(self, confluence_client, vector_store):
        self.confluence = confluence_client
        self.index = vector_store
        self.last_indexed = {}

    async def incremental_update(self):
        all_pages = self.confluence.get_all_pages(space_key="KB")
        for page in all_pages:
            page_id = page["id"]
            modified = page["version"]["when"]
            if self.last_indexed.get(page_id) == modified:
                continue
            self.index.delete(filter={"page_id": page_id})
            content = self.confluence.get_page_body(page_id)
            nodes = self._parse_and_chunk(content, page)
            self.index.add(nodes)
            self.last_indexed[page_id] = modified
        return {"updated": len([p for p in all_pages if self.last_indexed.get(p["id"]) != p["version"]["when"]])}

Инкрементальное обновление выполняется раз в час, что гарантирует актуальность без переиндексации всего корпуса.

Процесс работы

Этап	Длительность	Что делаем	Результат
Аналитика	1–2 дня	Анализируем структуру документации, типы документов, частоту запросов	Техническое задание и прототип на 10–20 документах
Проектирование	2–3 дня	Выбираем модель эмбеддингов, векторную базу, схему чанкинга	Документ архитектуры решения
Реализация	1–4 недели	Разрабатываем пайплайн индексации, конфигурируем ретривер и LLM, интегрируем с Confluence/Notion и Slack	Работающая система на тестовом наборе
Тестирование	3–5 дней	Оцениваем по RAGAS (faithfulness, relevance, precision), проводим A/B тест	Отчёт с метриками и рекомендации
Развёртывание	2–3 дня	Разворачиваем на инфраструктуре клиента, настраиваем CI/CD	Продуктивный контур, документация администратора

Что входит в работу

Документ архитектуры решения с обоснованием выбора модели и векторной базы.
Пайплайн индексации с parent-child chanking и инкрементальным обновлением.
Интеграция с Confluence, Notion или Google Docs через API.
Slack-бот или веб-интерфейс для запросов с цитированием источников.
Административная панель для мониторинга запросов и метрик (RAGAS).
Документация администратора и обучение команды (2 часа).
Поддержка в течение 1 месяца после запуска.

Типичные ошибки

Игнорирование иерархии документов. Parent-child chunking обязателен — иначе теряете до 18% relevance.
Редкое обновление индекса. Настройте инкрементальный пайплайн раз в час.
Выбор слабой модели эмбеддингов. Для русско-английской документации multilingual-e5-large (1024d) или BGE-M3 — минимум. BGE-small теряет 15% recall.
Отсутствие реранкера. Без cross-encoder точность топ-3 падает на 10–20%.
Пренебрежение безопасностью. Настройте фильтрацию prompt injection и аудит запросов.

Кейс: IT-компания, 200 человек, 1200 статей. Среднее время ответа — 1,4 сек, accuracy 82%. Количество повторных вопросов в #general упало на 43% за первый месяц. Проект окупился за 4 месяца — средняя экономия $12 000 в год.

Свяжитесь с нами для оценки вашего проекта. Получите консультацию по внедрению RAG-поиска на ваших данных. Закажите демо-доступ к готовой системе на тестовом наборе документов.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.