Почему бенчмарки в AI сломались — и что с этим делать в понедельник
В январе 2026 года Янн Лекун, уходя из Meta, сказал в интервью Financial Times про релиз Llama 4: «The results were fudged a little bit» (Fast Company, 6 января 2026). Команда показывала на LMArena одну версию модели, в продакшен ушла другая. На бенчмарке всё было правильно. В реальности код был хуже DeepSeek V3.Я хочу разобрать эту историю. Не потому что Meta — исключение. Потому что они — симптом.TL;DR.
Понимание оценки LLM: детальный разбор 4 основных подходов
Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.

