rag.
Анализ документов нейросетью с цитатами из источников: research-docs скилл для Claude Code
У меня на работе периодически прилетает задача: «вот тебе 30 PDF, разберись и сделай отчёт». Регламенты, отчёты, спецификации — всё в разных форматах, всё нужно было вчера. Раньше я открывал каждый файл, читал по диагонали, копировал куски в гугл-док. Занимало это полдня минимум.На прошлой неделе наткнулся на research-docs — Claude Code скилл от LlamaIndex, который делает ровно это: берёт папку с документами, парсит их, отвечает на ваши вопросы и генерирует HTML-отчёт с цитатами, указывающими на конкретное место в оригинальном документе. С bounding box’ами прямо на странице PDF.Разберу, как это устроено и стоит ли тащить в рабочий процесс.
Парсим MDN и пишем оффлайн RAG-MCP
Привет.В этой технической статье мы на практике разберёмся, что такое RAG, распарсим MDN Web Docs, научимся готовить эмбеддинги, заполним ими векторную базу данных и напишем свой MCP сервер с гибридным векторным и полнотекстовым поиском. Зальём всё получившееся добро на HuggingFace, GitHub и NPM, и настроим автоматическое обновление данных.Внутри будет много пошаговых инструкций и примеров кода на Bun + TypeScript.Скриншот вместо тысячи слов:
Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python
ВведениеLangChain обещает красивую жизнь: переключите модель одной строкой, подключите RAG за две, дайте агенту инструменты за три. На лендинге всё выглядит как конструктор LEGO — берёшь кубики, соединяешь, работает. На хакатоне это действительно так. В production — не совсем.Тезис «LangChain — overhead для production» не нов. Его обсуждают в каждом втором треде на Reddit и в комментариях на Хабре. Компания Octomind
Как работают ИИ-агенты для разработки
Как и в случае с любым инструментом, понимание того, как ИИ-агенты для разработки устроены изнутри, помогает принимать более взвешенные решения о том, как именно их применять.Агент для разработки — это программа, которая служит оболочкой для LLM, расширяя возможности этой модели за счет дополнительных функций, задаваемых скрытыми промптами и реализованных в виде вызываемых инструментов.Большие языковые модели В основе любого агента для разработки лежит большая языковая модель, или LLM. Это модели вроде GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro или Qwen3.5-35B-A3B.
Ваш AI не умеет редактировать большие документы. Вот почему – и как это починить
Вы открываете чат. Загружаете договор на 80 страниц или корпоративный регламент на 200. Пишете: «Добавь в раздел 4.2 новый пункт про порядок согласования».AI читает весь документ целиком. Находит (или не находит) нужное место. Что‑то вставляет. Иногда попадает, иногда — нет. Иногда ломает форматирование соседних таблиц. Иногда забывает, что этот же раздел нужно синхронизировать с приложением.Дело не в мощности модели. Дело в том, что она работает вслепую: нет карты документа, нет правил редактирования, нет понимания что с чем связано или неприкосновенно.
Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже
Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента (API/Поиск) -> Чтение -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, галлюцинируют и застревают в бесконечных циклах.Индустрия пытается лечить это экстенсивно: наращивает контекстное окно до миллионов токенов или пишет в системном промпте заклинания вроде «подумай шаг за шагом и будь максимально объективен».
Ехал Грека через реку. — Кто ехал? — Димон
Это первая часть из задуманной серии статей про ИИ. Здесь мы на немного заступим в техническую часть памяти/контекста LLM моделей. Разберем, почему они частенько забывают или выдумывают факты и врут.Как attention ломается на длинном контекстеНачнём с фундамента. Трансформер работает на self-attention - каждый токен смотрит на все остальные и решает, на что обратить внимание. Квадратичная сложность O(n²) - это причина, по которой модели вынуждены использовать оптимизации: FlashAttention-2/3, RoPE, ALiBi и прочее.Эти оптимизации не бесплатны. Они создают позиционные смещения:Primacy bias
Почему «база знаний в продукте» – это не Wikipedia, а политика доверия
Спросили в чате: «сколько мне спать / есть белка / бегать в неделю». Модель ответила ровно и быстро. Пользователь закрыл вкладку довольный. Через несколько дней эта же цифра оказалась в разговоре с врачом или в строке таблицы с расходами. Вопрос уже не «удобно ли в интерфейсе», а другой: кто в этой цепочке сказал «да, мы это утверждаем»?Wikipedia и прочие открытые базы отвечают на вопрос «что люди вообще накопили про тему». Продукт отвечает иначе: что мы готовы произнести от имени сервиса

