оценка llm.

Почему бенчмарки в AI сломались — и что с этим делать в понедельник

В январе 2026 года Янн Лекун, уходя из Meta, сказал в интервью Financial Times про релиз Llama 4: «The results were fudged a little bit» (Fast Company, 6 января 2026). Команда показывала на LMArena одну версию модели, в продакшен ушла другая. На бенчмарке всё было правильно. В реальности код был хуже DeepSeek V3.Я хочу разобрать эту историю. Не потому что Meta — исключение. Потому что они — симптом.TL;DR.

продолжить чтение

Как оценивать RAG-системы: метрики, методы и что измерять в первую очередь

Материал подготовлен для будущих студентов курса «ИИ-архитектор».Когда RAG-система дает сбой, по одному только ответу невозможно понять, почему это произошло. RAG расшифровывается как retrieval-augmented generation – генерация с дополнением через поиск – и это одна из самых распространенных техник проектирования контекста, позволяющая добавлять AI-агентам дополнительную информацию, а значит, и повышать точность их работы. Поскольку RAG – критически важный компонент современных AI-приложений, разработчикам нужен метод оценки LLM, который позволяет выявлять проблемы и отслеживать качество работы RAG.

продолжить чтение

Понимание оценки LLM: детальный разбор 4 основных подходов

Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

продолжить чтение