AI evaluation.

Детектор был прав, разметка врала: как мы искали слепую зону LLM-судей и нашли ошибки в эталоне

Иногда самое опасное в исследовании — получить слишком красивый результат.Мы собрали training-free детектор галлюцинаций для RAG, получили хорошие метрики и наткнулись на группу примеров, где все шесть LLM единогласно спорили с эталонной разметкой. Сначала мы решили, что нашли общую слепую зону LLM-as-a-Judge — переносимый, заголовочный результат. Потом открыли первоисточник. И оказалось, что ошибались вовсе не модели.Дальше — история о том, почему несущим здесь оказалась не находка и не детектор, а процедура проверки, которая поймала нас самих.Что работает — и это мы не отзываем

продолжить чтение

Оставлено в

Harness Bench: как оценить агентский harness и выбрать связку с моделью

Привет! Я Андрей Иванов, NLP-исследователь в R&D-лаборатории red_mad_robot.

продолжить чтение

Оставлено в

Почему ваше AI-решение не окупается. Фреймворк OpenAI, который все пропустили

OpenAI опубликовали фреймворк, на который мало кто обратил внимание. Исследование OpenAI (да и не только их) показало: компании внедряют ИИ, но часть из них не получает ожидаемого эффекта. В этом фреймворке на мой взгляд обозначены принципы отделяющие посредственные решения от тех которые делают внедрение AI в бизнес эффективным.https://openai.com/index/evals-drive-next-chapter-of-ai/KPI и OKR остаются бизнес-целями. Evals — метрики, которые показывают, как AI помогает достигать целей. Либо evals становятся частью KPI, либо контролируют качество AI, который двигает показатели вверх.

продолжить чтение