Почему бенчмарки в AI сломались — и что с этим делать в понедельник
В январе 2026 года Янн Лекун, уходя из Meta, сказал в интервью Financial Times про релиз Llama 4: «The results were fudged a little bit» (Fast Company, 6 января 2026). Команда показывала на LMArena одну версию модели, в продакшен ушла другая. На бенчмарке всё было правильно. В реальности код был хуже DeepSeek V3.Я хочу разобрать эту историю. Не потому что Meta — исключение. Потому что они — симптом.TL;DR.
Представлена языковая модель с линейной сложностью вычислений и контекстом до 12 млн токенов
Кратко: стартап Subquadratic представил SubQ 1M-Preview — первую языковую модель с линейной сложностью вычислений относительно длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 раза выше FlashAttention и радикальное снижение стоимости. Независимых тестов пока нет (хотя стартап заявляет о сторонней верификации своих бенчмарков), доступ закрыт. Техническое сообщество реагирует сдержанно: пока это амбициозный пресс-релиз, а не готовый инструмент.
Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад
16 апреля Anthropic выкатила Claude Opus 4.7. На self-reported бенчмарках - 12 побед из 14. SWE-bench Verified +6.8, MCP-Atlas +14.6, SWE-bench Pro +10.9. Цена та же, 25 за миллион токенов.Через 24 часа
DeepSeek V4: Обзор нейросети, бенчмарки и тесты
Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4. Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью.
LLM бенчмарк «Испытание Дали»
Обложка нарисована в ChatGPT Image-2Помните анекдот?— Что вы умеете лучше всего? — Я очень быстро считаю. — Сколько будет 758×652÷9? — 22! — Но это же неправильно! — Зато очень быстро.
GPT-5.5 против DeepSeek-V4: почему OpenAI удваивает цены, пока Китай демпингует
GPT-2 мой новый фаворит для обложекЗа последние 48 часов индустрия ИИ пережила сразу 2 тектонических сдвига. Практически одновременно, 23 и 24 апреля 2026 года, свет увидели две новые флагманские модели: GPT-5.5 от OpenAI
DeepSeek выпустил V4 — открытую модель с контекстом в миллион токенов
Сегодня DeepSeek опубликовали две новые модели: V4-Pro и V4-Flash. Обе работают по архитектуре Mixture-of-Experts, веса доступны на Hugging Face под MIT-лицензией.
OpenAI выпустили GPT-5.5: пишет код дешевле предшественника
GPT-5.5 — это следующая модель после GPT-5.4, ориентированная прежде всего на агентную работу: многошаговые задачи, где модель планирует, использует инструменты и доводит работу до конца без постоянного участия пользователя.На Terminal-Bench 2.0 (сложные командно-строковые сценарии с планированием и итерациями) модель показала 82.7% против 75.1% у GPT-5.4. На SWE-Bench Pro, который оценивает решение реальных GitHub-задач, — 58.6%. Примечательно, что этих результатов GPT-5.5 достигает при меньшем количестве токенов, чем предшественник.
EVGeoQA: Оценка LLM в динамическом, многоцелевом геопространственном поиске
Перевод подготовил автор канала Друг Опенсурса, приятного прочтения, заранее благодарю за подпискуАвторы: Jianfei Wu1, Zhichun Wang1,2,3†, Zhensheng Wang1, Zhiyu He41 Школа искусственного интеллекта, Пекинский педагогический университет, Пекин 100875, Китай2 Пекинская ключевая лаборатория искусственного интеллекта в образовании, Пекин 100875, Китай3 Инженерно-исследовательский центр интеллектуальных технологий и образовательных приложений, Министерство образования, Пекин 100875, Китай
Глухой телефон для ИИ: мы замерили физику LLM-графов и поняли, почему добавление агентов всё ломает
Сейчас, в 2026 году, индустрия ИИ переживает бум мультиагентных систем. Все собирают свои «рои», фреймворки и crew-команды. Логика проста: если одна LLM умная, давайте свяжем десять, дадим им роли, и они свернут горы.Но на практике мы часто сталкиваемся с магией черного ящика. Иногда 10 агентов действительно решают сложную задачу. А иногда они скатываются в бесконечные галлюцинации, теряют изначальный контекст и выдают результат хуже, чем базовая модель соло. И индустрия решает эту проблему в стиле алхимиков: «просто добавьте еще агентов» или «дайте им больше токенов на общение».

