retrieval.

Простые проблемы с RAG, которые мы решали в ИИ-стартапе

Предыстория. Ну как ИИ-стартап, в общем-то обычный SaaS но с ключевыми задачками в бизнес-процессах для LLM. Задача основателю казалась простой. Нужно было построить систему, которая принимает пользовательский запрос, анализирует контекст пользователя, извлекает релевантные данные и формирует ответ.На первом этапе архитектура ИИ-слоя выглядела очень просто и типично:user request ⭢ RAG retrieval ⭢ LLM ⭢ answerВ прототипе все работало отлично. Но после запуска в реальном продукте начались первые проблемы. Именно тогда этот стартап и попал ко мне.

продолжить чтение

Возвращение RAG в 2026 году

В прошлом году я попытался «убить» RAG в продукте, который мне был важен.У нас был retrieval-пайплайн, который в целом работал, но раздражал. В нём случались всплески задержек, были пограничные случаи, которые мы не могли воспроизвести, и копился бэклог правок: лучшее разбиение на фрагменты, более точные фильтры, более качественный реранкинг, более хорошие оценки (evals).Потом стало проще покупать большой контекст и проще его оправдывать. Искушение было очевидным: если мы просто будем вставлять больше текста в промпт, то сможем выкинуть пайплайн, убрать онколл и выкатить всё в прод.

продолжить чтение

NEWAVE. Делаем интеллектуальный ретривал музыки

продолжить чтение

Как AI VK построили единую платформу для рекомендаций, поиска и рекламы в продуктах с многомиллионной аудиторией

Привет! На связи команда рекомендаций AI VK.

продолжить чтение

RAG-системы: что это такое, принципы работы, архитектура и ограничения

Привет, Habr!Эта статья — первый шаг в серии материалов о технологии RAG. Здесь мы разберёмся, что это вообще такое, зачем она появилась и почему её так часто требуют в вакансиях. К концу статьи у вас должно сложиться целостное понимание, когда RAG действительно нужен, какие архитектуры бывают и где чаще всего возникают ошибки.В статье мы разберём:почему вообще появился RAG;что такое RAG в общем смысле;основные способы расширения контекста модели;кому RAG действительно нужен (и кому нет);как устроен RAG и как работает в принципе;где и почему RAG чаще всего ломается;

продолжить чтение

Как RuStore читает мысли пользователей (и причём тут теги)

продолжить чтение

Строим корпоративную GenAI-платформу: от концепции до ROI. Часть 3. Retrieval-Augmented Generation (RAG) на службе GenAI

В предыдущих статьях серии (Часть 1, Часть 2) мы обсудили концепцию корпоративной GenAI-платформы и подходы к ее разработке. Теперь перейдем к одному из ключевых компонентов такой платформы — интеграции знаний с помощью Retrieval-Augmented Generation (RAG). Что такое RAG и зачем он нуженRetrieval-Augmented Generation (RAG)

продолжить чтение

Как мы научили LLM проверять себя и сэкономили ресурсы на RAG-пайплайне

продолжить чтение

Часть 4. Обзор технологий RAG для LLM: аугментация извлеченных данных

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь). В этой, четвертой части авторы совсем скромненько, словно тренировались заполнять налоговую декларацию, разбирают технологии аугментации извлеченных данных.

продолжить чтение

Как выбрать embedding модель без датасета и исторических данных

ВведениеС появлением больших языковых моделей тема векторного поиска обрела новое дыхание. Компании, которые хотят внедрить архитектуру Retrieval-Augmented Generation (RAG), сталкиваются с вопросом: как выбрать эмбеддинги, которые будут работать эффективно именно с их данными?Выбор эмбеддинг-модели — это стратегически важное и долгосрочное решение, так как оно определяет качество поиска и производительность системы. Но этот выбор особенно сложно сделать на ранних этапах развития вашего проекта, когда данных для анализа ещё нет. При этом замена модели в будущем может оказаться дорогостоящей и ресурсозатратной.

продолжить чтение

Rambler's Top100