Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Седьмой выпуск еженедельных IT-новостей ^[1] от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.

Вышел ARC-AGI-3. Люди — 100%, модели — меньше 2%

Тест ARC-AGI-3 ^[2] построен на наборе 2D-игр с полем 64×64 пикселя. Правила не объясняются — нужно самостоятельно понять, что вообще происходит на экране, и пройти уровни. Люди справляются почти стопроцентно. Топовые модели, включая GPT-5.4, набрали меньше процента.

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 1

Самое спорное решение оргкомитета: официальный лидерборд учитывает только модели без «харнеса» — программных инструментов-обёрток вроде доступа к браузеру или среде исполнения. Логика ^[3] понятна: хотят мерить саму модель, а не систему вокруг неё. Но лично мне кажется, что это слабо стыкуется с реальностью. Человек без инструментов тоже мало на что способен.

Google выпустили трёхбитную квантизацию KV-кэша

Это лучшая новость в области ML за последние недели. Google представили TurboQuant ^[4] — алгоритм трёхбитного сжатия, но не для самой модели, а для KV-кэша.

Хитрость в том, что Google заменяют декартову систему координат полярной при хранении векторов. Вместо «5 по оси X, 10 по оси Y» — «шаг 10 под углом 35°». Числа хранятся компактнее, точность сохраняется. Графики сравнения показывают, что деградация при переходе с 4 до 3 бит минимальная.

Новость крутая, из-за неё даже акции некоторых компаний неплохо так просели. Если алгоритм приживется, то мы увидим улучшение работы моделей без увеличения объёма занимаемой памяти ^[5].

В OpenIDE Pro появится поддержка ACP

ACP (Agent Communication Protocol) ^[6] — протокол от JetBrains, который позволяет любому агенту понимать структуру IDE: какие файлы открыты, какая кодовая база, какие возможности доступны. Без ACP каждый агент изобретает интеграцию с нуля. С ACP агент сразу «знает» среду.

Пока это бета — доступ по заявке на почту (info@openide.ru). На время бета-тестирования функция будет работать в том числе в обычной версии OpenIDE, не только в Pro.

Если интересно подробнее про бесплатные агентные варианты — есть добро пожаловать в другую статью: Локальная LLM для кодинга за 12 минут: LM Studio, Kilo Code и четыре бесплатных облачных варианта ^[7]

Anthropic готовит новую модель под кодовым названием Claude Mythos (или Capybara)

Слухи потихоньку утекают ^[8]. По описаниям — новый ценовой сегмент, выше текущего Claude Opus. Возможно, подписка за $2000 в месяц станет реальностью раньше, чем хотелось бы.

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 2

OpenAI закрывают Sora

Sora задумывалась как соцсеть нового типа: пользователь не постит свои фото, а генерирует контент. Видео, картинки — всё синтетическое. Проблема в том, что генерация видео стоит очень дорого. Минута из свежей Google Veo — уже серьёзные деньги, а миллионы пользователей генерировали десятки видео в сутки. Экономическая модель, по всей видимости, не сошлась.

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 3

Знакомая история: Periscope, Clubhouse, теперь Sora — вспыхивают, хайпуют, исчезают. Я ни разу так и не запустил ни один из них. А вот MAX прижился с первых дней :D Вот и думайте!

GigaChat 3.1: большое обновление от Сбера

Сбер выпустили ^[9] обновлённую версию GigaChat. По заявлению — не дообученная чужая модель, а разработка с нуля. Конкурировать с текущими западными или восточными флагманами она пока не может, но с моделями предыдущего поколения — вполне. В большой статье сравнения как раз с ними.

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 4

Новая модель это классно, но я бы ещё хотел увидеть, что я реально используют новую омодель. Сейчас эту информацию просто никак не получить. Интерфейс не показывает, какая версия модели сейчас работает. Заходишь, написано просто «ГигаЧат» — и непонятно, это 3.1 или что-то старее. Кароче не интуитивно!

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 5

И второе: в анонсах ^[10] встречаются вот такие перлы: «Нашли и исправили критический баг в SGLang (версии 0.5.3–0.5.9), из-за которого качество генерации падало при dp > 1». Это написано в публичном посте для широкой аудитории. На кого это рассчитано — загадка)

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 6

Уже сейчас OpenIDE ^[11] позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе ^[12]. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram ^[13] или Max ^[14], чтобы не пропустить свежие обновления и полезные материалы.

Автор: honest_niceman

Источник ^[15]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28056

URLs in this post:

[1] еженедельных IT-новостей: https://t.me/openide_official/110

[2] ARC-AGI-3: https://arcprize.org

[3] Логика: http://www.braintools.ru/article/7640

[4] TurboQuant: https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

[5] памяти: http://www.braintools.ru/article/4140

[6] ACP (Agent Communication Protocol): https://agentclientprotocol.com/get-started/introduction

[7] Локальная LLM для кодинга за 12 минут: LM Studio, Kilo Code и четыре бесплатных облачных варианта: https://habr.com/ru/companies/haulmont/articles/1012626/

[8] утекают: https://t.me/data_secrets/8939

[9] выпустили: https://habr.com/ru/companies/sberbank/articles/1014146/

[10] анонсах: https://t.me/cio_channel/7845

[11] OpenIDE: https://openide.ru/

[12] маркетплейсе: https://marketplace.openide.ru/

[13] Telegram: https://t.me/openide_official

[14] Max: https://max.ru/openide

[15] Источник: https://habr.com/ru/companies/haulmont/articles/1017460/?utm_campaign=1017460&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.