rag. - страница 13

rag.

Анализ документов нейросетью с цитатами из источников: research-docs скилл для Claude Code

У меня на работе периодически прилетает задача: «вот тебе 30 PDF, разберись и сделай отчёт». Регламенты, отчёты, спецификации — всё в разных форматах, всё нужно было вчера. Раньше я открывал каждый файл, читал по диагонали, копировал куски в гугл-док. Занимало это полдня минимум.На прошлой неделе наткнулся на research-docs — Claude Code скилл от LlamaIndex, который делает ровно это: берёт папку с документами, парсит их, отвечает на ваши вопросы и генерирует HTML-отчёт с цитатами, указывающими на конкретное место в оригинальном документе. С bounding box’ами прямо на странице PDF.Разберу, как это устроено и стоит ли тащить в рабочий процесс.

продолжить чтение

Парсим MDN и пишем оффлайн RAG-MCP

Привет.В этой технической статье мы на практике разберёмся, что такое RAG, распарсим MDN Web Docs, научимся готовить эмбеддинги, заполним ими векторную базу данных и напишем свой MCP сервер с гибридным векторным и полнотекстовым поиском. Зальём всё получившееся добро на HuggingFace, GitHub и NPM, и настроим автоматическое обновление данных.Внутри будет много пошаговых инструкций и примеров кода на Bun + TypeScript.Скриншот вместо тысячи слов:

продолжить чтение

OpenClaw и память без амнезии: что выбрать между Lossless Claw, OpenViking, ByteRover, MemPalace и LLM Wiki

Когда говорят «память для ИИ-агента», очень легко начать спорить о разном, думая, что обсуждается одно и то же.

продолжить чтение

Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python

ВведениеLangChain обещает красивую жизнь: переключите модель одной строкой, подключите RAG за две, дайте агенту инструменты за три. На лендинге всё выглядит как конструктор LEGO — берёшь кубики, соединяешь, работает. На хакатоне это действительно так. В production — не совсем.Тезис «LangChain — overhead для production» не нов. Его обсуждают в каждом втором треде на Reddit и в комментариях на Хабре. Компания Octomind

продолжить чтение

Как работают ИИ-агенты для разработки

Как и в случае с любым инструментом, понимание того, как ИИ-агенты для разработки устроены изнутри, помогает принимать более взвешенные решения о том, как именно их применять.Агент для разработки — это программа, которая служит оболочкой для LLM, расширяя возможности этой модели за счет дополнительных функций, задаваемых скрытыми промптами и реализованных в виде вызываемых инструментов.Большие языковые модели В основе любого агента для разработки лежит большая языковая модель, или LLM. Это модели вроде GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro или Qwen3.5-35B-A3B.

продолжить чтение

В DeepPavlov добавят модули для борьбы с галлюцинациями и избыточным поиском

продолжить чтение

Ваш AI не умеет редактировать большие документы. Вот почему – и как это починить

Вы открываете чат. Загружаете договор на 80 страниц или корпоративный регламент на 200. Пишете: «Добавь в раздел 4.2 новый пункт про порядок согласования».AI читает весь документ целиком. Находит (или не находит) нужное место. Что‑то вставляет. Иногда попадает, иногда — нет. Иногда ломает форматирование соседних таблиц. Иногда забывает, что этот же раздел нужно синхронизировать с приложением.Дело не в мощности модели. Дело в том, что она работает вслепую: нет карты документа, нет правил редактирования, нет понимания что с чем связано или неприкосновенно.

продолжить чтение

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента (API/Поиск) -> Чтение -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, галлюцинируют и застревают в бесконечных циклах.Индустрия пытается лечить это экстенсивно: наращивает контекстное окно до миллионов токенов или пишет в системном промпте заклинания вроде «подумай шаг за шагом и будь максимально объективен».

продолжить чтение

Ехал Грека через реку. — Кто ехал? — Димон

Это первая часть из задуманной серии статей про ИИ. Здесь мы на немного заступим в техническую часть памяти/контекста LLM моделей. Разберем, почему они частенько забывают или выдумывают факты и врут.Как attention ломается на длинном контекстеНачнём с фундамента. Трансформер работает на self-attention - каждый токен смотрит на все остальные и решает, на что обратить внимание. Квадратичная сложность O(n²) - это причина, по которой модели вынуждены использовать оптимизации: FlashAttention-2/3, RoPE, ALiBi и прочее.Эти оптимизации не бесплатны. Они создают позиционные смещения:Primacy bias

продолжить чтение

Почему «база знаний в продукте» – это не Wikipedia, а политика доверия

Спросили в чате: «сколько мне спать / есть белка / бегать в неделю». Модель ответила ровно и быстро. Пользователь закрыл вкладку довольный. Через несколько дней эта же цифра оказалась в разговоре с врачом или в строке таблицы с расходами. Вопрос уже не «удобно ли в интерфейсе», а другой: кто в этой цепочке сказал «да, мы это утверждаем»?Wikipedia и прочие открытые базы отвечают на вопрос «что люди вообще накопили про тему». Продукт отвечает иначе: что мы готовы произнести от имени сервиса

продолжить чтение