Возвращение RAG в 2026 году
В прошлом году я попытался «убить» RAG в продукте, который мне был важен.У нас был retrieval-пайплайн, который в целом работал, но раздражал. В нём случались всплески задержек, были пограничные случаи, которые мы не могли воспроизвести, и копился бэклог правок: лучшее разбиение на фрагменты, более точные фильтры, более качественный реранкинг, более хорошие оценки (evals).Потом стало проще покупать большой контекст и проще его оправдывать. Искушение было очевидным: если мы просто будем вставлять больше текста в промпт, то сможем выкинуть пайплайн, убрать онколл и выкатить всё в прод.
Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили
OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным.https://openai.com/index/evals-drive-next-chapter-of-ai/KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх.
Evals – гарантия качества и окупаемости ИИ
OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным.https://openai.com/index/evals-drive-next-chapter-of-ai/KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх.
LLM Evals: движущая сила новой эры ИИ в бизнесе
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.
Понимание оценки LLM: детальный разбор 4 основных подходов
Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

