Как я построил Graph RAG систему с точностью 96.7% за 5 дней: от научных статей до production-ready пайплайна. Datalog.. Datalog. embeddings.. Datalog. embeddings. graphrag.. Datalog. embeddings. graphrag. knowledge graph.. Datalog. embeddings. graphrag. knowledge graph. llm.. Datalog. embeddings. graphrag. knowledge graph. llm. Natural Language Processing.. Datalog. embeddings. graphrag. knowledge graph. llm. Natural Language Processing. neo4j.. Datalog. embeddings. graphrag. knowledge graph. llm. Natural Language Processing. neo4j. nlp.. Datalog. embeddings. graphrag. knowledge graph. llm. Natural Language Processing. neo4j. nlp. PageRank.. Datalog. embeddings. graphrag. knowledge graph. llm. Natural Language Processing. neo4j. nlp. PageRank. python.. Datalog. embeddings. graphrag. knowledge graph. llm. Natural Language Processing. neo4j. nlp. PageRank. python. rag.. Datalog. embeddings. graphrag. knowledge graph. llm. Natural Language Processing. neo4j. nlp. PageRank. python. rag. Алгоритмы.. Datalog. embeddings. graphrag. knowledge graph. llm. Natural Language Processing. neo4j. nlp. PageRank. python. rag. Алгоритмы. Машинное обучение.. Datalog. embeddings. graphrag. knowledge graph. llm. Natural Language Processing. neo4j. nlp. PageRank. python. rag. Алгоритмы. Машинное обучение. Поисковые технологии.

Skeleton Indexing (KDD 2025) + HippoRAG 2 (ICML 2025) + VectorCypher + Datalog Reasoning + 10 итераций оптимизации

TL;DR

Я реализовал Graph RAG систему, которая комбинирует 5 техник из свежих научных статей в единый пайплайн с декларативным reasoning-движком, полной провенансной трассировкой и типизированным API. Результат: 174/180 (96.7%) на билингвальном бенчмарке из 30 вопросов, оценённых в 6 режимах retrieval. Три режима достигли 100%. Ноль persistent failures.

GitHub: vpakspace/agentic-graph-rag

Проблема: почему обычный RAG недостаточен

Классический RAG — “разбей документ на чанки, сделай embeddings, найди похожие” — работает для простых фактоидных вопросов. Но он ломается на:

Вопросах о связях: “Как метод X связан с компонентом Y?” — ответ разбросан по разным чанкам
Multi-hop рассуждениях: “Что произойдёт, если изменить A, учитывая что A влияет на B, а B на C?”
Глобальных вопросах: “Перечисли все 7 архитектурных решений” — ответ в 7 разных местах документа
Кросс-языковых запросах: русский вопрос о концепциях из английского документа

Моя цель — система, которая справляется со всеми этими типами вопросов, а не только с простыми.

Архитектура: 5 техник из 2025 года

1. Skeleton Indexing (KET-RAG, KDD 2025)

Проблема: извлечение сущностей из всех чанков — дорого (O(n) вызовов LLM).

Решение: строим KNN-граф по embeddings чанков → PageRank → извлекаем сущности только из top-25% “скелетных” чанков. Периферийные чанки привязываем через keyword matching.

Chunks → KNN Graph → PageRank → Top-β Skeletal (full extraction)
                                → Peripheral (keyword linking only)

Результат: 75% меньше вызовов LLM при сопоставимом качестве. Это не трюк — это математика: PageRank выделяет чанки, которые наиболее “центральны” в семантическом пространстве документа.

2. Dual-Node Structure (HippoRAG 2, ICML 2025)

Проблема: обычный GraphRAG теряет контекст полных пассажей. Обычный RAG теряет связи между сущностями.

Решение: два типа узлов в Neo4j:

PhraseNode — сущность (имя, тип, PageRank score, embedding)
PassageNode — полный текст чанка (контент, embedding)
MENTIONED_IN — связывает сущности с пассажами
RELATED_TO — ко-вхождения между сущностями

Это даёт и навигацию по графу (через PhraseNode), и полный контекст (через PassageNode).

3. VectorCypher Retrieval

Гибридный retrieval в три фазы, вдохновлённый VectorCypherRetriever из Neo4j GraphRAG:

Vector Index → находим ближайшие PhraseNode через cosine similarity
Cypher Traversal → расширяем через RELATED_TO (до 3 хопов)
PassageNode Collection → собираем связанные пассажи → GraphContext

Ключевой инсайт: cosine re-ranking по реальным embeddings PassageNode из Neo4j бьёт RRF-фьюжн.

4. Agentic Router с Self-Correction

Три уровня маршрутизации с каскадным fallback:

Tier	Метод	Confidence	Описание
1	Mangle (Datalog)	0.7	65 билингвальных ключевых слов
2	LLM (GPT-4o-mini)	0.85	Классификация нейросетью
3	Pattern (regex)	0.5	Regex-паттерны как fallback

Если качество retrieval ниже порога (relevance < 2.0 из 5), система эскалирует по цепочке инструментов:

vector_search → cypher_traverse → hybrid_search → comprehensive_search → full_document_read

Каждая попытка перефразирует запрос через LLM. Лучшие результаты отслеживаются по всем попыткам.

5. PyMangle — Datalog-движок на Python

Полная реимплементация Google Mangle (2,919 строк):

Lark-based парсер с кастомной грамматикой
Semi-naive evaluation со стратифицированным отрицанием
35+ встроенных функций (арифметика, строки, списки, словари)
Temporal evaluation
Filter pushdown для внешних предикатов

Три файла правил:

routing.mg — маршрутизация запросов (65 ключевых слов)
access.mg — RBAC (role inheritance + permit/deny)
graph.mg — граф-инференс (reachable, common_neighbor, evidence)

% Транзитивное замыкание по графу
reachable(X, Y, 1) :- edge(X, R, Y).
reachable(X, Z, D) :- reachable(X, Y, D1), edge(Y, R, Z),
    D = fn:plus(D1, 1), D < 5.

% Общие соседи двух сущностей
common_neighbor(A, B, N) :- edge(A, R1, N), edge(B, R2, N), A != B.

Бенчмарк: от 38% до 96.7% за 10 итераций

Дизайн бенчмарка

30 вопросов: 7 simple, 7 relation, 6 multi_hop, 6 global, 4 temporal
2 документа: Doc1 (русский, граф знаний) + Doc2 (английский, архитектура SCL)
6 режимов retrieval: vector, cypher, hybrid, agent_pattern, agent_llm, agent_mangle
180 оценок (30 × 6) через hybrid judge: embedding similarity + keyword overlap + LLM-as-judge

Эволюция результатов

v3:  38%  ████░░░░░░░░░░░░░░░░  Baseline (вопросы на EN, документы на RU)
v4:  67%  █████████░░░░░░░░░░░  +29pp — вопросы на RU (language match!)
v5:  73%  ██████████░░░░░░░░░░  +6pp  — comprehensive_search для global
v10: 65%  █████████░░░░░░░░░░░  -8pp  — добавили 15 новых вопросов
v11: 80%  ████████████░░░░░░░░  +15pp — enumeration prompt
v12: 93%  ██████████████████░░  +13pp — hybrid judge
v14: 96.7%███████████████████░  +3.7pp — semantic judge

Финальные результаты (v14)

Режим	Результат
Vector	30/30 (100%)	Чистый embedding search
Hybrid	30/30 (100%)	Vector + Graph
Agent (Mangle)	30/30 (100%)	Datalog правила
Agent (LLM)	29/30 (96%)	GPT-4o-mini роутер
Agent (Pattern)	28/30 (93%)	Regex паттерны
Cypher	27/30 (90%)	Граф-траверсал
Итого	174/180 (96.7%)	0 persistent failures

10 уроков оптимизации

1. Язык вопросов = язык документов (+29pp)

Самое большое улучшение за всю историю проекта. Вопросы на английском о русском документе давали 38%. Переключение на русские вопросы — 67%. Embeddings хорошо справляются с кросс-языковым поиском, но LLM-генератор теряет контекст.

2. Failures — это не retrieval, а generation + evaluation

Ключевой инсайт v11: для глобальных вопросов ВСЕ нужные ключевые слова находились в top-30 чанков. Проблема была в том, что генератор не перечислял все пункты, а judge обрезал ответ до 500 символов.

3. CoT-промпт для judge — катастрофа

Попытка сделать judge “умнее” через Chain-of-Thought (“перечисли найденные ключевые слова → посчитай → выдай вердикт”) вызвала регрессию с 144/180 до 48/180. GPT-4o-mini буквально искал английские строки в русском тексте. Простой промпт “match CONCEPTS, not strings” работает в 3 раза лучше.

4. Cosine re-ranking бьёт RRF

Hybrid search с Reciprocal Rank Fusion давал худшие результаты, чем cosine re-ranking по реальным embeddings из Neo4j. RRF хорош для combining разных сигналов, но когда оба сигнала — embedding-based, прямое cosine similarity точнее.

5. Embedding similarity для judge (threshold 0.65)

Для вопросов с reference answer: cosine similarity между ответом системы и эталоном >= 0.65 → auto-PASS. Калибровка: правильный ответ ~0.677, неправильный (другой документ) ~0.570. Порог 0.65 идеально разделяет.

6. Кросс-языковая маршрутизация

Русский вопрос о концепциях из английского документа (Doc2/SCL) ломает vector_search — он возвращает Doc1. Решение: детектируем кросс-языковой глобальный запрос → напрямую full_document_read вместо vector_search.

7. Comprehensive search размывает результаты

comprehensive_search (multi-query fan-out) генерирует N подзапросов → каждый через vector_search → RRF merge. Но если все подзапросы возвращают Doc1, то единственный full_document_read результат для Doc2 тонет в RRF-merge.

8. Self-correction loop должен сохранять лучшее

Ранний баг: каждая попытка перезаписывала предыдущие результаты. Если attempt 1 дал score 2.5, а attempt 2 — score 1.8, система возвращала 1.8. Фикс: трекаем best_results и best_score по всем попыткам.

9. Enumeration prompt — специальный формат

Для глобальных вопросов (“перечисли все…”) обычный prompt генерирует текст, а не список. Специальный enumeration prompt: “Output a numbered list. Scan ALL chunks. Do not stop early.”

10. Judge limit 500 → 2000 символов

Обрезка ответа до 500 символов для judge убивала enumeration-ответы (7 пунктов ~ 1500 символов). Увеличение до 2000 — мгновенный +5pp.

Typed API и провенанс

Каждый запрос создаёт PipelineTrace:

{
  "trace_id": "tr_abc123def456",
  "router_step": {
    "method": "mangle",
    "decision": {"query_type": "simple", "suggested_tool": "vector_search"}
  },
  "tool_steps": [{
    "tool_name": "vector_search",
    "results_count": 10,
    "relevance_score": 3.2,
    "duration_ms": 150
  }],
  "escalation_steps": [],
  "generator_step": {
    "model": "gpt-4o-mini",
    "confidence": 0.82
  },
  "total_duration_ms": 1800
}

API: FastAPI REST (/api/v1/) + FastMCP (SSE/MCP) — и для REST-клиентов, и для AI-агентов.

Цифры проекта

Метрика	Значение
Python LOC	16,206 (118 файлов)
Тесты	586 (320 core + 108 PyMangle + 158 rag-core)
Зависимости	26 пакетов
Итерации бенчмарка	10 (v2 → v14)
Файлы результатов	15 JSON (~4.7 MB)
Mangle-правила	111 строк (3 файла)
Классы	36 (14 data models, 8 services, 6 config, 4 reasoning)

Что дальше

Personalized PageRank для query-focused графового обхода
Human evaluation в дополнение к LLM-as-judge
Streaming ответы в Streamlit UI
Больше Mangle-правил — temporal reasoning, conflict resolution

Стек

Компонент	Технология
LLM	OpenAI GPT-4o / GPT-4o-mini
Embeddings	text-embedding-3-small (1536 dim)
Graph DB	Neo4j 5.x (Vector Index + Cypher)
Reasoning	PyMangle (Datalog, 2,919 LOC)
Doc Parsing	Docling (PDF/DOCX/PPTX + GPU)
Graph Algorithms	NetworkX (PageRank, KNN, PPR)
API	FastAPI (REST) + FastMCP (SSE/MCP)
UI	Streamlit (7 tabs)
Testing	pytest (586 tests) + ruff
CI/CD	GitHub Actions

Если вам интересны детали реализации или вы хотите обсудить Graph RAG — пишите в комментариях или открывайте issue на GitHub.

Автор: VladSpace

Источник

Запись добавлена: 24.02.2026 в 12:16
Оставлено в

Как я построил Graph RAG систему с точностью 96.7% за 5 дней: от научных статей до production-ready пайплайна

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

TL;DR

Проблема: почему обычный RAG недостаточен

Архитектура: 5 техник из 2025 года

1. Skeleton Indexing (KET-RAG, KDD 2025)

2. Dual-Node Structure (HippoRAG 2, ICML 2025)

3. VectorCypher Retrieval

4. Agentic Router с Self-Correction

5. PyMangle — Datalog-движок на Python

Бенчмарк: от 38% до 96.7% за 10 итераций

Дизайн бенчмарка

Эволюция результатов

Финальные результаты (v14)

10 уроков оптимизации

1. Язык вопросов = язык документов (+29pp)

2. Failures — это не retrieval, а generation + evaluation

3. CoT-промпт для judge — катастрофа

4. Cosine re-ranking бьёт RRF

5. Embedding similarity для judge (threshold 0.65)

6. Кросс-языковая маршрутизация

7. Comprehensive search размывает результаты

8. Self-correction loop должен сохранять лучшее

9. Enumeration prompt — специальный формат

10. Judge limit 500 → 2000 символов

Typed API и провенанс

Цифры проекта

Что дальше

Стек

Как я построил Graph RAG систему с точностью 96.7% за 5 дней: от научных статей до production-ready пайплайна

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

TL;DR

Проблема: почему обычный RAG недостаточен

Архитектура: 5 техник из 2025 года

1. Skeleton Indexing (KET-RAG, KDD 2025)

2. Dual-Node Structure (HippoRAG 2, ICML 2025)

3. VectorCypher Retrieval

4. Agentic Router с Self-Correction

5. PyMangle — Datalog-движок на Python

Бенчмарк: от 38% до 96.7% за 10 итераций

Дизайн бенчмарка

Эволюция результатов

Финальные результаты (v14)

10 уроков оптимизации

1. Язык вопросов = язык документов (+29pp)

2. Failures — это не retrieval, а generation + evaluation

3. CoT-промпт для judge — катастрофа

4. Cosine re-ranking бьёт RRF

5. Embedding similarity для judge (threshold 0.65)

6. Кросс-языковая маршрутизация

7. Comprehensive search размывает результаты

8. Self-correction loop должен сохранять лучшее

9. Enumeration prompt — специальный формат

10. Judge limit 500 → 2000 символов

Typed API и провенанс

Цифры проекта

Что дальше

Стек