evals.

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Посвящается всем, кто менял промпт в 3 часа ночи и шептал «ну давай, гад, заработай».Привет, Хабр. Через несколько дней будет 16 лет, как я здесь зарегистрирован. Это моя первая статья. Кек.Меня зовут Ярослав, днём я занимаюсь продуктом, а по вечерам пилю десктопный AI-ассистент для встреч. Записывает, транскрибирует, суммаризирует и сам раскладывает решения, задачи и факты по базе знаний. Документация, которая пишет себя сама. Под капотом — Tauri (Rust + React), а за agent loop отвечает Mastra — TypeScript-фреймворк для AI-агентов с встроенными evals, tool calling и structured output.

продолжить чтение

Оставлено в

Возвращение RAG в 2026 году

В прошлом году я попытался «убить» RAG в продукте, который мне был важен.У нас был retrieval-пайплайн, который в целом работал, но раздражал. В нём случались всплески задержек, были пограничные случаи, которые мы не могли воспроизвести, и копился бэклог правок: лучшее разбиение на фрагменты, более точные фильтры, более качественный реранкинг, более хорошие оценки (evals).Потом стало проще покупать большой контекст и проще его оправдывать. Искушение было очевидным: если мы просто будем вставлять больше текста в промпт, то сможем выкинуть пайплайн, убрать онколл и выкатить всё в прод.

продолжить чтение

Оставлено в

Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили

OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным.https://openai.com/index/evals-drive-next-chapter-of-ai/KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх.

продолжить чтение

Оставлено в

Evals – гарантия качества и окупаемости ИИ

продолжить чтение

Оставлено в

LLM Evals: движущая сила новой эры ИИ в бизнесе

На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.

продолжить чтение

Оставлено в

Понимание оценки LLM: детальный разбор 4 основных подходов

Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

evals.

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Возвращение RAG в 2026 году

Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили

Evals – гарантия качества и окупаемости ИИ

LLM Evals: движущая сила новой эры ИИ в бизнесе

Понимание оценки LLM: детальный разбор 4 основных подходов

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

evals.

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Возвращение RAG в 2026 году

Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили

Evals – гарантия качества и окупаемости ИИ

LLM Evals: движущая сила новой эры ИИ в бизнесе

Понимание оценки LLM: детальный разбор 4 основных подходов