закон Гудхарта.

Сказ о том, как нейросеть занялась reward hacking прямо у меня на кухне

С чего все началось

Оставлено в

Почему бенчмарки в AI сломались — и что с этим делать в понедельник

В январе 2026 года Янн Лекун, уходя из Meta, сказал в интервью Financial Times про релиз Llama 4: «The results were fudged a little bit» (Fast Company, 6 января 2026). Команда показывала на LMArena одну версию модели, в продакшен ушла другая. На бенчмарке всё было правильно. В реальности код был хуже DeepSeek V3.Я хочу разобрать эту историю. Не потому что Meta — исключение. Потому что они — симптом.TL;DR.

продолжить чтение