Чим Graph RAG відрізняється від звичайного RAG?

Звичайний RAG шукає лише семантично близькі чанки через векторні ембеддинги. Graph RAG додатково traverse граф знань: від знайденої сутності за зв'язками переходить до пов'язаних концепцій, які можуть не збігатися за ембеддингом, але дають контекст для складних multi-hop питань. Microsoft GraphRAG використовує NetworkX із серіалізацією.

Коли варто використовувати Graph RAG?

Коли потрібні відповіді на питання про відношення між сутностями („Як пов'язані компанія X та контракт Y?“), глобальна сумаризація великого корпусу („Які основні теми?“) або multi-hop reasoning („Хто керівник відділу, відповідального за договір №123?“). Для простих фактів достатньо векторного RAG.

Яку нейромережу використовують для вилучення сутностей?

Зазвичай GPT-4o або аналогічні LLM з response_format json. Промпт просить повернути список сутностей (із типом PERSON, ORG, CONTRACT тощо) та зв'язків між ними (SIGNED, MANAGES). Вилучення виконується один раз при індексації, на кожен документ.

Як зберігати граф знань — Neo4j чи NetworkX?

Для прототипів і невеликих проектів достатньо NetworkX у пам'яті — просто і швидко. Для продакшену з десятками тисяч сутностей і зв'язків краще взяти Neo4j: він підтримує Cypher-запити, шардування та ACID-транзакції. Microsoft GraphRAG використовує NetworkX із серіалізацією.

Скільки часу займає впровадження Graph RAG?

Розробка extraction pipeline (LLM → граф) — 2–3 тижні. Побудова графа з наявних документів — 1–4 тижні (залежить від обсягу). Реалізація local/global search — 2 тижні. Разом 6–11 тижнів на повноцінне продакшен-рішення. Вартість для типових проектів: $12 000–$30 000. Терміни уточнюються після оцінки ваших даних.

Чим Graph RAG відрізняється від звичайного RAG?

Звичайний RAG шукає лише семантично близькі чанки через векторні ембеддинги. Graph RAG додатково traverse граф знань: від знайденої сутності за зв'язками переходить до пов'язаних концепцій, які можуть не збігатися за ембеддингом, але дають контекст для складних multi-hop питань. Microsoft GraphRAG використовує NetworkX із серіалізацією.

Коли варто використовувати Graph RAG?

Коли потрібні відповіді на питання про відношення між сутностями („Як пов'язані компанія X та контракт Y?“), глобальна сумаризація великого корпусу („Які основні теми?“) або multi-hop reasoning („Хто керівник відділу, відповідального за договір №123?“). Для простих фактів достатньо векторного RAG.

Яку нейромережу використовують для вилучення сутностей?

Зазвичай GPT-4o або аналогічні LLM з response_format json. Промпт просить повернути список сутностей (із типом PERSON, ORG, CONTRACT тощо) та зв'язків між ними (SIGNED, MANAGES). Вилучення виконується один раз при індексації, на кожен документ.

Як зберігати граф знань — Neo4j чи NetworkX?

Для прототипів і невеликих проектів достатньо NetworkX у пам'яті — просто і швидко. Для продакшену з десятками тисяч сутностей і зв'язків краще взяти Neo4j: він підтримує Cypher-запити, шардування та ACID-транзакції. Microsoft GraphRAG використовує NetworkX із серіалізацією.

Скільки часу займає впровадження Graph RAG?

Розробка extraction pipeline (LLM → граф) — 2–3 тижні. Побудова графа з наявних документів — 1–4 тижні (залежить від обсягу). Реалізація local/global search — 2 тижні. Разом 6–11 тижнів на повноцінне продакшен-рішення. Вартість для типових проектів: $12 000–$30 000. Терміни уточнюються після оцінки ваших даних.

Багатокроковий пошук із графом знань: вилучення за допомогою Graph RAG

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Багатокроковий пошук із графом знань: вилучення за допомогою Graph RAG

Складний

від 2 тижнів до 3 місяців

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1354
Розробка веб-додатків для компанії FEEDME
1248
Розробка веб-сайту для компанії БЕЛФІНГРУП
951
Розробка інтернет магазину для компанії FURNORO
1186
Розробка логотипу компанії B2B Advance
643
Розробка веб-додатків для компанії Enviok
925

Показати більше робіт

Багатокроковий пошук із графом знань: вилучення за допомогою Graph RAG

Ми часто стикаємося з ситуацією: стандартний векторний RAG чудово знаходить релевантні чанки, але не може відповісти на питання "Як пов'язані компанія X та контракт Y?" — для цього потрібно зрозуміти відношення між сутностями та пройти по графу зв'язків. Graph RAG (RAG на графах знань) вирішує цю проблему, додаючи до ембеддингів структуру графа знань. Замість простого пошуку за семантичною близькістю система traverse граф: від знайденої сутності через зв'язки переходить до пов'язаних концепцій, які можуть не містити ключових слів запиту, але семантично релевантні. Такий підхід дає якісно новий рівень відповідей на складні multi-hop питання. Економія часу на пошук — до 70%, а впровадження окупається за 3–6 місяців за рахунок скорочення ручного аналізу. Наприклад, для компанії з 10 000 договорів вартість впровадження становить $15 000–$25 000, а річна економія на аналізі документів — до $120 000. Зниження витрат на ручний аналіз документів сягає 80%.

Які вигоди дає Graph RAG?

Graph RAG перевершує стандартний RAG у 6 разів на multi-hop завданнях. Наша практика: юридичний відділ із тисячами договорів за тривалий період. Стандартний RAG не міг відповісти "Які постачальники брали участь у тендерах, де переможець згодом визнаний банкрутом?" — потрібно було пройти по ланцюжку "тендер → переможець → банкрутство". Graph RAG підняв точність таких питань з 12% до 71%. Граф містив 45 000 сутностей і 180 000 зв'язків, побудований на Neo4j. Таким чином, графовий RAG кращий за звичайний у 6 разів для multi-hop питань та в 2.4 рази для глобальної сумаризації.

Обмеження стандартного RAG

Тип питання	Стандартний RAG	Graph RAG
Пошук сутності ("Хто підписав договір №123?")	92%	89% (незначний регрес)
Multi-hop (2+ стрибки)	12%	71%
Питання про відношення ("Чи пов'язані X та Y?")	34%	82%
Глобальна сумаризація ("Які основні теми?")	34%	82%

Механізм точності Graph RAG: граф-трасування

Ключова відмінність — ability to traverse the graph. Коли користувач питає "Які договори торкнеться зміна керівника в компанії X?", стандартний RAG знайде чанки, де згадується "зміна керівника X", але не зможе вивести, що керівник X керує певними договорами через ланцюжок підрозділів. Графовий RAG проходить по зв'язках: керівник → підрозділ → договір, отримуючи повний контекст. Наші заміри на корпоративній документації показали зростання точності multi-hop питань з 12% до 71%, а global summarization — з 34% до 82%. При цьому на простих фактах Graph RAG не програє: різниця в межах 3%.

Як працює архітектура Microsoft GraphRAG?

Архітектура Microsoft GraphRAG — найбільш впливова реалізація. Процес включає кілька етапів:

LLM (GPT-4o) вилучає з документів сутності та відношення.
Побудований граф знань зберігається в NetworkX або Neo4j.
Алгоритм Leiden виявляє ієрархічні спільноти, для кожної генерується community report.
Два режими пошуку: Local — комбінує векторний пошук з граф-traversal від знайдених сутностей; Global — сумаризує community reports для глобальних питань.

Приклад вилучення сутностей через GPT-4o

from openai import OpenAI
import json

client = OpenAI()

ENTITY_EXTRACTION_PROMPT = """Вилучи сутності та зв'язки з наступного тексту.
Поверни JSON:
{{
  "entities": [
    {{"id": "1", "name": "...", "type": "PERSON|ORG|CONTRACT|REGULATION|CONCEPT", "description": "..."}}
  ],
  "relationships": [
    {{"source": "id1", "target": "id2", "relation": "SIGNED|MANAGES|REFERS_TO|PART_OF", "description": "..."}}
  ]
}}

Текст:
{text}"""

def extract_graph_elements(text: str) -> dict:
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": ENTITY_EXTRACTION_PROMPT.format(text=text)}],
        response_format={"type": "json_object"},
        temperature=0,
    )
    return json.loads(response.choices[0].message.content)

Побудова графа знань з NetworkX

import networkx as nx
from typing import List

class KnowledgeGraph:
    def __init__(self):
        self.graph = nx.DiGraph()
        self.entity_embeddings = {}

    def add_elements(self, elements: dict, source_doc: str):
        for entity in elements["entities"]:
            self.graph.add_node(
                entity["id"],
                name=entity["name"],
                type=entity["type"],
                description=entity["description"],
                source=source_doc,
            )

        for rel in elements["relationships"]:
            self.graph.add_edge(
                rel["source"],
                rel["target"],
                relation=rel["relation"],
                description=rel["description"],
            )

    def get_subgraph(self, entity_id: str, depth: int = 2) -> nx.DiGraph:
        nodes = {entity_id}
        for _ in range(depth):
            neighbors = set()
            for node in nodes:
                neighbors.update(self.graph.predecessors(node))
                neighbors.update(self.graph.successors(node))
            nodes.update(neighbors)
        return self.graph.subgraph(nodes)

    def serialize_subgraph(self, subgraph: nx.DiGraph) -> str:
        lines = []
        for node in subgraph.nodes(data=True):
            lines.append(f"Сутність: {node[1].get('name')} ({node[1].get('type')})")
            lines.append(f"  Опис: {node[1].get('description', '')}")

        for edge in subgraph.edges(data=True):
            source_name = subgraph.nodes[edge[0]].get("name", edge[0])
            target_name = subgraph.nodes[edge[1]].get("name", edge[1])
            lines.append(f"Зв'язок: {source_name} → {target_name} ({edge[2].get('relation')})")
            lines.append(f"  {edge[2].get('description', '')}")

        return "\n".join(lines)

Local Search: контекст з графа та векторів

from langchain_openai import OpenAIEmbeddings
import numpy as np

class GraphRAGRetriever:
    def __init__(self, knowledge_graph: KnowledgeGraph, vectorstore, embeddings):
        self.kg = knowledge_graph
        self.vectorstore = vectorstore
        self.embeddings = embeddings

    def local_search(self, query: str, top_k: int = 5) -> str:
        vector_docs = self.vectorstore.similarity_search(query, k=top_k)
        mentioned_entities = self._extract_entities_from_docs(vector_docs, query)
        graph_contexts = []
        for entity_id in mentioned_entities[:3]:
            subgraph = self.kg.get_subgraph(entity_id, depth=2)
            graph_context = self.kg.serialize_subgraph(subgraph)
            graph_contexts.append(graph_context)

        vector_context = "\n\n".join([d.page_content for d in vector_docs])
        graph_context = "\n\n".join(graph_contexts)

        return f"## Текстовий контекст\n{vector_context}\n\n## Контекст з графа знань\n{graph_context}"

Інструменти для Graph RAG

Microsoft GraphRAG library: pip install graphrag — повна реалізація від Microsoft
Neo4j + LangChain: Neo4jGraph + GraphCypherQAChain для Cypher-запитів
LlamaIndex + Knowledge Graph: KnowledgeGraphIndex
NetworkX: легковаговий граф у Python без зовнішніх залежностей

Що входить в роботу

Проектування схеми графа знань (сутності, зв'язки, типи)
Реалізація extraction pipeline на GPT-4o / Claude 3.5
Побудова графа з використанням Neo4j або NetworkX
Налаштування Local та Global search режимів
Інтеграція з existing RAG-системою (LangChain, LlamaIndex)
Тестування на ваших даних: заміри точності (precision/recall) та latency p99
Документація та навчання команди

Наш досвід: 5+ років у NLP та продакшені, понад 20 успішних проектів з RAG. Працюємо на ринку з 2019 року. Команда має сертифікації з Neo4j та LangChain. Ми гарантуємо точність вилучення сутностей на рівні 95% для типових документів. Графуємо ваші дані під ключ — від проектування до деплою на SageMaker або Vertex AI. Зв'яжіться для оцінки вашого проекту: ми проаналізуємо обсяг даних, типи питань та запропонуємо оптимальну архітектуру. Отримайте консультацію інженера — безкоштовно. Наша експертність підтверджена багаторічним досвідом та відгуками клієнтів.

Орієнтовні терміни

Етап	Тривалість
Розробка extraction pipeline	2–3 тижні
Побудова графа з наявних документів	1–4 тижні
Реалізація Local/Global search	2 тижні
Тестування та оцінка	1–2 тижні
Разом	6–11 тижнів

Вартість розраховується індивідуально — залежить від обсягу документів, необхідної точності та складності схеми графа. Звертайтеся до нас для детального розрахунку.

Практичний розбір LLM: fine-tuning, RAG, агенти, деплой

Модель GPT‑4 або Claude 3.5 Sonnet через публічне API — не рішення, а просто інструмент. Коли приходить вимога «зробити як ChatGPT, але на наших даних», за нею стоїть реальна інженерна задача: від налаштування промптів до навчання 70B‑моделі на власній інфраструктурі. LLM розробка під ключ — це складний стек, і ми займаємося цим понад 5 років. За цей час реалізовано понад 20 проєктів у галузі генеративного AI: від RAG‑систем для юридичних департаментів до кастомних агентів для техпідтримки. Де саме знаходиться ваша задача — залежить від даних, latency‑вимог, бюджету та того, наскільки критична конфіденційність.

Типова ситуація: клієнт уже спробував ChatGPT, але результати нестабільні — то відповідає точно, то галюцинує. Або потрібна інтеграція в корпоративний портал з дотриманням політик безпеки. Розберемо кожен шар стеку в деталях — від RAG до production‑деплою.

Чому RAG‑системи ламаються і як це виправити?

RAG (Retrieval‑Augmented Generation) виглядає просто: знайшли релевантні документи, поклали в контекст, модель відповіла. На практиці збоїть у кількох місцях.

Chunking без перекриття. Класична помилка: chunk_size=512, overlap=0. Якщо відповідь лежить на межі двох чанків, retrieval не знайде жодного з достатньою впевненістю. Рішення: overlap 15–25% від chunk_size, а краще sentence‑aware splitting через spaCy або NLTK, а не наївне розбиття за символами.

Поганий embedder. Текст‑embedding‑ada‑002 — хороший для загального випадку, але на юридичних або медичних текстах програє спеціалізованим моделям: E5‑large‑v2, BGE‑M3 або fine‑tuned sentence‑transformers на доменних даних. Різниця в Recall@5 може становити 15–25%.

Відсутність re‑ranking. Векторний пошук оптимізований за швидкістю, не за релевантністю. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) після первинного retrieval піднімає точність топ‑3 при прийнятній затримці (+50–150 ms). Це часто важливіше за покращення embedding‑моделі.

Гібридний пошук. Тільки dense вектори погано працюють на точних запитах: імена, артикули, коди. BM25 (sparse) добре знаходить точні збіги, але не розуміє семантику. Гібрид через RRF (Reciprocal Rank Fusion) — оптимальний компроміс. Qdrant, Weaviate та pgvector 0.7+ підтримують гібридний пошук нативно.

Типова production‑архітектура корпоративного knowledge base

Документи → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гібридний dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM або OpenAI API)
Відповідь з джерелами (RAGAS для оцінки якості)

Коли варто fine‑tune, а не промпт‑інжиніринг?

Промпт‑інжиніринг вирішує ~70% завдань адаптації LLM під домен. Решта 30% вимагають донавчання. Три ознаки: модель ігнорує специфічний формат виведення навіть при детальному описі в промпті; задача вимагає глибокого знання спеціалізованої лексики (медицина, право); потрібно значно знизити витрати на токени, замінивши велику модель меншою спеціалізованою.

LoRA та QLoRA — стандарт для SFT. LoRA додає trainable low‑rank матриці до attention‑шарів. Типова конфігурація для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — параметрів, що навчаються, ~0.8%, навчання на одній A100 40GB. QLoRA додає 4‑бітну квантизацію (NF4) і дозволяє fine‑tune 70B модель на двох A100 40GB, хоча швидкість падає вдвічі порівняно з bf16.

DPO замість RLHF. Direct Preference Optimization вимагає лише пари (chosen, rejected), а не скалярні reward‑сигнали. DPOTrainer з бібліотеки trl (Hugging Face) реалізує це кількома десятками рядків.

Типова помилка. Датасет з 500 прикладів, 5 епох, validation loss 0.8 — здається норм. Але на тесті модель деградувала на загальних інструкціях. Причина: catastrophic forgetting. Рішення — додати 10–20% загальних instruction‑following прикладів (Alpaca, FLAN) у навчальну вибірку, щоб не зруйнувати вихідні здібності.

Як обрати базову модель: 8B чи 70B?

Модель	Параметри	Сильні сторони	Контекст
Llama‑3.1 8B	8B	Баланс якість/швидкість	128k
Llama‑3.1 70B	70B	Складні міркування	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Ефективність на розмір	32k
Qwen2.5 72B	72B	Код, мультимовність	128k
Gemma 2 27B	27B	Відкрита ліцензія	8k

Для більшості задач fine‑tuning 8B моделі достатньо. 70B потрібен, коли потрібне глибоке міркування або baseline 8B не досягає потрібної якості навіть після донавчання. Вартість інференсу Llama‑3 8B через vLLM на A100 значно нижча, ніж у GPT‑4, що робить його економічно вигідним.

Що дає PagedAttention в production?

vLLM — перший вибір для serving open‑source моделей. PagedAttention — ключове технічне рішення: KV‑cache керується як virtual memory в ОС, без фрагментації. Це дає throughput у 2–4 рази вище порівняно з наївним HuggingFace Transformers inference. Документація vLLM підтверджує: continuous batching та PagedAttention — стандарт для високонавантажених LLM‑сервісів.

Типові числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двох A100 з tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизація AWQ або GPTQ знижує споживання пам'яті в 2 рази при втраті якості в межах 1–3%.

Мультиагентні системи

Агенти — LLM з доступом до інструментів: пошук, виконання коду, запити до API, робота з БД. Основні патерни:

ReAct (Reason + Act): модель розмірковує → обирає інструмент → спостерігає результат → знову розмірковує. LangChain та LlamaIndex реалізують з коробки.
Multi‑agent orchestration: кілька спеціалізованих агентів з координатором зверху. Приклад: coordinator → researcher (пошук + summarization) → coder (генерація та виконання коду) → critic (перевірка). Інструменти: AutoGen (Microsoft), CrewAI, кастомна реалізація на LangGraph.

В продакшені агентні системи недетерміновані. Обов'язкові guardrails, ліміти кроків, логування кожного кроку, human‑in‑the‑loop для критичних дій.

Як ми гарантуємо якість LLM рішення?

Ми використовуємо RAGAS для автоматичної оцінки відповідей: faithfulness, answer relevancy, context precision. Система трекінгу експериментів на базі MLflow фіксує всі метрики, датасети та конфіги. Це дозволяє порівнювати різні гіпотези та доводити покращення з цифрами. Гарантію стабільної роботи забезпечує continuous integration з тестами на специфічних сценаріях (prompt injection, edge‑cases).

Як почати LLM розробку: наступні кроки

Ми передаємо:

Технічну документацію (model card, конфіги, інструкції з розгортання)
Доступ до інфраструктури (репозиторій з кодом, навчені ваги)
1 місяць підтримки після деплою (консультації, виправлення багів)
Навчання команди замовника (2–3 заняття з експлуатації системи)

Терміни: базовий RAG‑прототип — 1–2 тижні. Fine‑tuning з даними замовника — 3–6 тижнів (з урахуванням підготовки даних). Production‑система з моніторингом та перенавчанням — 2–4 місяці.

Етап	Тривалість	Що отримуєте
Аудит та збір даних	1–2 тиж.	Eval‑датасет з 100+ прикладів, формалізація задачі
Baseline (промпт + RAG)	1–2 тиж.	Робочий прототип, метрики якості
Fine‑tuning (якщо потрібно)	2–4 тиж.	Навчена модель, LoRA‑ваги, model card
Деплой та моніторинг	1–2 тиж.	vLLM сервер, Grafana + Prometheus
Документація та навчання	1 тиж.	API‑документація, навчання команди

Вартість розраховується індивідуально і залежить від обсягу даних, складності моделі та вимог до інфраструктури. Хочете оцінити свій проєкт? Зв'яжіться з нами — ми підготуємо попереднє резюме за 1–2 робочі дні. Або замовте консультацію фахівця з вибору підходу: RAG, fine‑tuning або гібрид — розповімо, що підійде саме вам.