retrieval.

Зачем GenAI-ассистенту platform logic: как управлять источниками, evidence и ответами

GenAI-ассистент может довольно быстро начать отвечать "по теме": находить релевантные фрагменты, собирать уверенный текст и создавать ощущение, что система уже работает.Если подключить LLM к корпоративным документам через RAG, подобрать параметры поиска, немного почистить контекст и добавить хороший prompt, первые результаты часто выглядят обнадеживающе. Пользователи начинают пробовать систему, появляются первые метрики использования, а сама идея быстро кажется готовой к расширению.Но для продуктового контура этого недостаточно.

продолжить чтение

Retrieval в 2026: как RAG переехал с энкодеров на LLM (и что с этим делать в своём проекте)

продолжить чтение

Evals для чайников. Как тестировать AI-агента, чтобы понимать, где именно он ломается

Большинство команд оценивают производительность AI-агентов через end-to-end метрики: success rate, количество токенов, tool usage, стоимость запроса, долю успешных задач. Это полезно для общего контроля ситуации, но почти бесполезно для реальной диагностики системы.

продолжить чтение

AWS обновила OpenSearch Serverless под AI-агентов

AWS запустила новое поколение OpenSearch Serverless — управляемого сервиса для поиска и работы с векторными данными. Главное изменение: инфраструктуру адаптировали под агентные нагрузки, где трафик создают не люди, а автономные ИИ-системы.

продолжить чтение

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Главное: RAG — это не просто «поиск + LLM». В локальном эксперименте основная дополнительная нагрузка появилась не в vector DB, а в embedding запроса, росте размера prompt и его обработке моделью. Top-k, chunk size и retrieval mode оказались параметрами проектирования и контроля, а не техническими настройками «по умолчанию». Главный вывод: стратегию retrieval нужно выбирать под тип вопроса, структуру данных, latency budget и требований к качеству.Введение

продолжить чтение

Почему ломается ваш AI-агент — и почему смена модели обычно его не чинит

Представьте внутреннего AI-агента, который помогает компании искать общие документы и управлять ими. Он работает. До тех пор, пока 12–15% запросов не начинают падать. Агент возвращает не тот документ, редактирует не тот файл, молча падает или уверенно ссылается на файл, которого не существует. Поиск по фото отказывает с той же частотой. Ошибки размазаны равномерно по пользователям, фичам и запросам.

продолжить чтение

Защита от дублирования кода агентами: семантические концепции

Клонировал разум — дай разуму память. Как я строил слой памяти для команды из ИИ‑агентов, чтобы они перестали переписывать то, что уже естьЭто третья статья из серии о том, как я строю свой стартап руками ИИ‑агентов, и если первые две были про то, с чего всё началось и как я добрался до сути, то эта — про проблему, к которой меня привела сама логика предыдущих шагов.В первой я рассказывал, как вообще в это ввязался: один человек, Telegram‑first SaaS для авторов курсов и владельцев сообществ, и вся разработка идёт через агентов Claude Code, без наёмной команды.Во 

продолжить чтение

RAG для тех, кто разочаровался: почему retrieval ломается и как это починить

Вы собрали RAG-пайплайн: загрузили документы, нарезали на чанки, сгенерировали эмбеддинги, подключили векторную базу. Задаёте вопрос — модель отвечает уверенно и подробно. Показываете заказчику, тот в восторге. Потом начинается тестирование на реальных вопросах, и оказывается, что на половину из них система отвечает мимо: то находит не тот документ, то находит правильный, но не тот кусок, то вообще ничего релевантного не достаёт и модель уверенно галлюцинирует.

продолжить чтение

Open-source персистентная память для LLM

Последние полгода я занимаюсь задачей, которая поначалу казалась тривиальной: научить LLM помнить, с кем она разговаривает.Задача звучит просто. На практике — нет.Если вы строили чат-бот или AI-агента, вы знаете ощущение: пользователь написал, что он вегетарианец, а через три сообщения модель предлагает ему стейк-хаус. Или пациент сообщил об аллергии на пенициллин, а ассистент через час забыл и порекомендовал амоксициллин. В рамках одного контекстного окна всё работает. Но стоит начать новую сессию — чистый лист, модель не помнит ничего.Написал NGT Memory

продолжить чтение

«Инди для позднего вечера»: почему музыкальный поиск не понимает настроений – и что с этим делать

Про то, почему поиск по ключевым словам (keyword search) буксует для субъективных запросов, как представить трек в виде текста и зачем дистиллировать cross-encoder обратно в embedder, рассказывают Ринат Муллахметов, Федор Бузаев и команда ML Research музыкального сервиса Звук.

продолжить чтение

12