Модели почти год, а она всё ещё №1 по цене-качеству. Прогнал свежий батл-тест — и опять не сдвинул
Собрал четыре модели в один батч — одна сессия, один судья, те же пять тем. Сравнивать баллы из разных тестов нельзя: разница в пару баллов между сессиями — это шум, а не сигнал.qwen/qwen3-235b-a22b-2507 снова №1 по цене/качеству (value 91.6). Модель вышла 21 июля 2025 — почти год назад. Рынок несколько раз перетряхнуло, а она с трона не сдвинулась.DeepSeek V4 Flash был недооценён на 6 баллов. В апреле у меня стоял 83, в честном батче — 89, сильнейший по качеству из четырёх. Аутсайдер оказался лидером.Мнимый сюрприз развеялся.
Gemini-3.5-flash догнал GPT-5.5 на 97-S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству
Главная новость месяца — китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США по соотношению цена/качество. По чистому качеству американцы пока впереди, но по соотношению цена/качество (которое учитывает оба фактора) лидируют китайские модели. Это сдвиг рынка, а не «ещё один релиз».Gemini-3.5-flash догнал OpenAI — 97/S, тот же балл, что у GPT-5.5, при этом в 2.5 раза дешевле ($0.09 против $0.23 за вызов). Google впервые на нашем тесте берёт ту же вершину, что OpenAI на длинном русском контенте.DeepSeek V4 Flash
Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой
DeepSeek V4 Pro вышел 24 апреля 2026, три дня назад. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Вокруг релиза до сих пор много шума — пиарили мощно. Я открыл OpenRouter, прописал её в свой battle test и ждал Tier S — 95+ из 100 на длинном русском контенте.Получил 89. Tier A, нижний край. Ну ладно — подумал, что модель прогрелась криво, и через сутки прогнал второй раз. Ровно 89. Не статистический выброс, а воспроизводимый результат.Запустил его же Flash-вариант — 83. По чистому качеству Pro действительно сильнее, на 6 пунктов. Только Flash при этом стоит $0.0019 за вызов против $0.0256 у Pro. В 13 раз дешевле.
Kaggle Benchmarks. «Kaggle уже не тот…»
В ML/DS сообществе есть шаблонная фраза “Kaggle уже не тот”. Ностальгия по временам ушедшим понятна, но в общем-то очевидно, что драматически меняется вся индустрия и ландшафт соревнований вместе с ним. На смену заголовку, встречавшему кагглеров раньше, “Your Home for Data Science” пришел новый: “The World's AI Proving Ground”. Бенчмарки на KaggleВ 2026 Kaggle окончательно перешел под крыло AI фронтьера от Google DeepMind. Сменился и фокус. Один из больших апдейтов - появление раздела "Benchmarks" и инструментария Kaggle Benchmarks SDK
Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества
Battle test на русском и английском: цена, качество и артефакты — открытый лидербордLLM-судья оценивает сам себя. Что могло пойти не так?127 баллов из 100. Не опечатка.
Бенчмарк конца эпохи — Humanity’s Last Exam
Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.Есть ещё BIG-bench (Beyond the Imitation Game)
LLM Evals: движущая сила новой эры ИИ в бизнесе
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.
Бенчмарки Llama-4, предположительно — скам на самом высоком уровне
Буквально пару дней назад, комада Llama сообщила о появлении трех новых нейронок под общим зонтиком Llama-4: быстрый Scout с контекстом 10 миллионов токенов. Медленный Maverick с контекстом 1 миллион, но 128 экспертами под капотом. И гигантский Behemoth, который использовался как учитель для предыдущих двух. 10 миллионов токенов и нахаляву — это, мягко говоря, дофига. Можно закрыть глаза и представить, как где-то там в далеком Сан-Франциско, разработчики Gemini Pro начинают искать себе новую работу сантехниками, электриками и ассенизаторами.Но вот прошла пара дней, и Царь оказался ненастоящий.

