Анализ документов нейросетью с цитатами из источников: research-docs скилл для Claude Code. llamaindex.. llamaindex. llm.. llamaindex. llm. Open source.. llamaindex. llm. Open source. PDF.. llamaindex. llm. Open source. PDF. python.. llamaindex. llm. Open source. PDF. python. rag.. llamaindex. llm. Open source. PDF. python. rag. анализ документов.. llamaindex. llm. Open source. PDF. python. rag. анализ документов. искусственный интеллект.

У меня на работе периодически прилетает задача: «вот тебе 30 PDF, разберись и сделай отчёт». Регламенты, отчёты, спецификации — всё в разных форматах, всё нужно было вчера. Раньше я открывал каждый файл, читал по диагонали, копировал куски в гугл-док. Занимало это полдня минимум.

На прошлой неделе наткнулся на research-docs — Claude Code скилл от LlamaIndex, который делает ровно это: берёт папку с документами, парсит их, отвечает на ваши вопросы и генерирует HTML-отчёт с цитатами, указывающими на конкретное место в оригинальном документе. С bounding box’ами прямо на странице PDF.

Разберу, как это устроено и стоит ли тащить в рабочий процесс.

Что это такое

LiteParse Samples — это набор демо от LlamaIndex, построенных вокруг LiteParse (их парсер документов). Внутри три инструмента:

  • Parser Comparison — визуальное сравнение LiteParse, PyPDF и PyMuPDF на реальных документах

  • Visual Citations — поиск по распарсенным документам с подсветкой совпадений прямо на изображении страницы

  • Research Docs — то, ради чего мы здесь: Claude Code скилл, который анализирует документы и генерирует отчёт с цитатами

Research-docs — это скилл, то есть расширение для Claude Code. Устанавливается одной командой, работает локально.

Как работает research-docs

Пайплайн:

Папка с документами (PDF, DOCX, PPTX, XLSX, изображения)
    ↓
LiteParse — извлекает текст и координаты элементов на странице
    ↓
Claude Code — анализирует содержимое, отвечает на ваш вопрос
    ↓
HTML-отчёт с ответом + цитаты с bounding box'ами на страницах PDF

Ключевой момент — цитаты с визуальной привязкой. Это не просто «по данным документа X, стр. 5». Это интерактивная ссылка, которая показывает конкретное место на конкретной странице PDF, обведённое рамкой. Можно открыть PDF-просмотрщик прямо в отчёте и убедиться, что нейросеть не выдумала цифру.

Для тех, кто работает с юридическими документами, финансовыми отчётами или регуляторикой — это критически важно. Галлюцинации в таких контекстах недопустимы, и возможность за секунду проверить каждый факт по источнику решает проблему.

Установка

Одна команда:

npx skills add run-llama/liteparse_samples --skill research_docs

Или вручную — скопировать папку research_docs в ~/.claude/skills/research-docs.

После этого в Claude Code появляется слэш-команда:

/research-docs ./my-pdfs "Какой общий доход за 2025 год?"

Указываете папку с документами и вопрос — получаете HTML-отчёт.

Какие форматы поддерживает

LiteParse парсит:

  • PDF (основной формат)

  • DOCX (Word)

  • PPTX (PowerPoint)

  • XLSX (Excel)

  • Изображения (через OCR)

  • Plaintext

То есть можно закинуть в папку микс из PDF-отчётов, Word-договоров и Excel-таблиц — и задать вопрос по всей совокупности. «Найди противоречия между договором и спецификацией» — вот такие запросы становятся реальными.

Parser Comparison — зачем это в наборе

LiteParse Samples включает визуальное сравнение трёх парсеров на реальных государственных документах (FDIC, Federal Reserve, CMS, IRS, WHO). Слева — оригинальный PDF, справа — текст, извлечённый каждым парсером.

Зачем это: чтобы вы сами увидели, где PyPDF теряет таблицы, где PyMuPDF путает колонки, и насколько LiteParse справляется лучше. Для тех, кто выбирает парсер для своего пайплайна — полезная демка. Открываете comparison/output/comparison.html в браузере и сравниваете.

Спойлер: на сложных таблицах и многоколоночных раскладках разница заметна. На простом текстовом PDF — все три справляются одинаково.

Visual Citations — поиск с подсветкой

Отдельная демка: вводите ключевое слово, и система показывает, где именно оно встречается в документах — с bounding box’ом на изображении страницы. Это простой substring match, не семантический поиск. Но для быстрой навигации по большому объёму документов — удобно.

Практический сценарий: вам прислали 500-страничный регламент, нужно найти все упоминания «персональные данные». Visual Citations покажет каждое вхождение с контекстом и визуальной привязкой к странице.

Что внутри: LiteParse

LiteParse — парсер от LlamaIndex. Работает локально, не отправляет данные наружу (что важно для конфиденциальных документов). Ключевое отличие от PyPDF/PyMuPDF — LiteParse сохраняет координаты каждого текстового элемента на странице. Поэтому и работают bounding box’ы в цитатах.

Это model-free парсер — не использует ML для извлечения текста (в отличие от, например, Unstructured или Amazon Textract). Плюс: быстро, стабильно, не нужен GPU. Минус: на рукописных документах или сканах с плохим качеством будет хуже, чем ML-решения.

Ограничения

Claude Code нужен. Research-docs — это скилл для Claude Code, а не standalone-инструмент. Если вы не пользуетесь Claude Code — этот конкретный инструмент вам не подходит. Но LiteParse + Visual Citations работают отдельно, на чистом Python.

Качество ответа зависит от модели. Скилл использует Claude для анализа — и качество зависит от того, насколько хорошо модель поняла контекст. На простых вопросах («какая сумма на стр. 3?») работает точно. На сложных аналитических запросах — может промахнуться, и тут цитаты особенно важны для проверки.

Стоимость. Каждый вызов — это токены Claude Code. Анализ 30 документов с длинным вопросом может стоить $5-10. Это не бесплатно.

Substring match, не семантический поиск. Visual Citations ищет точные совпадения, не «похожие по смыслу». Для полноценного RAG нужен отдельный пайплайн.

Как воспроизвести на своих данных

# Клонируем репозиторий
git clone https://github.com/jerryjliu/liteparse_samples
cd liteparse_samples

# Устанавливаем зависимости
pip install -r requirements.txt

# Кладём свои PDF в data/
cp ~/my-documents/*.pdf data/

# Настраиваем docs.json (какие документы и страницы парсить)
# Генерируем сравнение парсеров
cd comparison && python generate.py

# Генерируем Visual Citations
cd ../visual_citations && python generate.py

# Устанавливаем скилл для Claude Code
cp -r research_docs ~/.claude/skills/research-docs

# Используем
# /research-docs ./data "Ваш вопрос"

docs.json — конфиг, где указываете файлы, страницы и описания:

[
  {
    "name": "Квартальный отчёт",
    "file": "q3_report.pdf",
    "pages": [0, 1, 2, 3],
    "source": "internal",
    "desc": "Финансовый отчёт Q3 2025"
  }
]

Кому пригодится

  • Юристам и аналитикам, которые работают с большими пакетами документов

  • Разработчикам, которые строят RAG-пайплайны и ищут хороший парсер

  • Студентам, которым нужно быстро разобраться в 20 статьях для курсовой

  • Всем, кто устал читать PDF по диагонали и пропускать важное

Репозиторий: github.com/jerryjliu/liteparse_samples


Как вы работаете с большими объёмами документов? Есть ли инструменты, которые реально ускоряют процесс, а не создают иллюзию ускорения?

Автор: nlaik

Источник