Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит. arc-agi.. arc-agi. Claude Capybara.. arc-agi. Claude Capybara. GigaChat 3.1.. arc-agi. Claude Capybara. GigaChat 3.1. Google TurboQuant.. arc-agi. Claude Capybara. GigaChat 3.1. Google TurboQuant. GPT-5.4.. arc-agi. Claude Capybara. GigaChat 3.1. Google TurboQuant. GPT-5.4. grok.. arc-agi. Claude Capybara. GigaChat 3.1. Google TurboQuant. GPT-5.4. grok. OpenIDE ACP.. arc-agi. Claude Capybara. GigaChat 3.1. Google TurboQuant. GPT-5.4. grok. OpenIDE ACP. sora.. arc-agi. Claude Capybara. GigaChat 3.1. Google TurboQuant. GPT-5.4. grok. OpenIDE ACP. sora. бенчмарк AGI.

Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.

Вышел ARC-AGI-3. Люди — 100%, модели — меньше 2%

Тест ARC-AGI-3 построен на наборе 2D-игр с полем 64×64 пикселя. Правила не объясняются — нужно самостоятельно понять, что вообще происходит на экране, и пройти уровни. Люди справляются почти стопроцентно. Топовые модели, включая GPT-5.4, набрали меньше процента.

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 1

Самое спорное решение оргкомитета: официальный лидерборд учитывает только модели без «харнеса» — программных инструментов-обёрток вроде доступа к браузеру или среде исполнения. Логика понятна: хотят мерить саму модель, а не систему вокруг неё. Но лично мне кажется, что это слабо стыкуется с реальностью. Человек без инструментов тоже мало на что способен.

Google выпустили трёхбитную квантизацию KV-кэша

Это лучшая новость в области ML за последние недели. Google представили TurboQuant — алгоритм трёхбитного сжатия, но не для самой модели, а для KV-кэша.

Хитрость в том, что Google заменяют декартову систему координат полярной при хранении векторов. Вместо «5 по оси X, 10 по оси Y» — «шаг 10 под углом 35°». Числа хранятся компактнее, точность сохраняется. Графики сравнения показывают, что деградация при переходе с 4 до 3 бит минимальная.

Новость крутая, из-за неё даже акции некоторых компаний неплохо так просели. Если алгоритм приживется, то мы увидим улучшение работы моделей без увеличения объёма занимаемой памяти.

В OpenIDE Pro появится поддержка ACP

ACP (Agent Communication Protocol) — протокол от JetBrains, который позволяет любому агенту понимать структуру IDE: какие файлы открыты, какая кодовая база, какие возможности доступны. Без ACP каждый агент изобретает интеграцию с нуля. С ACP агент сразу «знает» среду.

Пока это бета — доступ по заявке на почту (info@openide.ru). На время бета-тестирования функция будет работать в том числе в обычной версии OpenIDE, не только в Pro.

Если интересно подробнее про бесплатные агентные варианты — есть добро пожаловать в другую статью: Локальная LLM для кодинга за 12 минут: LM Studio, Kilo Code и четыре бесплатных облачных варианта

Anthropic готовит новую модель под кодовым названием Claude Mythos (или Capybara)

Слухи потихоньку утекают. По описаниям — новый ценовой сегмент, выше текущего Claude Opus. Возможно, подписка за $2000 в месяц станет реальностью раньше, чем хотелось бы.

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 2

OpenAI закрывают Sora

Sora задумывалась как соцсеть нового типа: пользователь не постит свои фото, а генерирует контент. Видео, картинки — всё синтетическое. Проблема в том, что генерация видео стоит очень дорого. Минута из свежей Google Veo — уже серьёзные деньги, а миллионы пользователей генерировали десятки видео в сутки. Экономическая модель, по всей видимости, не сошлась.

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 3

Знакомая история: Periscope, Clubhouse, теперь Sora — вспыхивают, хайпуют, исчезают. Я ни разу так и не запустил ни один из них. А вот MAX прижился с первых дней :D Вот и думайте!

GigaChat 3.1: большое обновление от Сбера

Сбер выпустили обновлённую версию GigaChat. По заявлению — не дообученная чужая модель, а разработка с нуля. Конкурировать с текущими западными или восточными флагманами она пока не может, но с моделями предыдущего поколения — вполне. В большой статье сравнения как раз с ними.

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 4

Новая модель это классно, но я бы ещё хотел увидеть, что я реально используют новую омодель. Сейчас эту информацию просто никак не получить. Интерфейс не показывает, какая версия модели сейчас работает. Заходишь, написано просто «ГигаЧат» — и непонятно, это 3.1 или что-то старее. Кароче не интуитивно!

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 5

И второе: в анонсах встречаются вот такие перлы: «Нашли и исправили критический баг в SGLang (версии 0.5.3–0.5.9), из-за которого качество генерации падало при dp > 1». Это написано в публичном посте для широкой аудитории. На кого это рассчитано — загадка)

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит - 6

Уже сейчас OpenIDE позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram или Max, чтобы не пропустить свежие обновления и полезные материалы.

Автор: honest_niceman

Источник

Запись добавлена: 31.03.2026 в 12:13
Оставлено в

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Вышел ARC-AGI-3. Люди — 100%, модели — меньше 2%

Google выпустили трёхбитную квантизацию KV-кэша

В OpenIDE Pro появится поддержка ACP

Anthropic готовит новую модель под кодовым названием Claude Mythos (или Capybara)

OpenAI закрывают Sora

GigaChat 3.1: большое обновление от Сбера

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Вышел ARC-AGI-3. Люди — 100%, модели — меньше 2%

Google выпустили трёхбитную квантизацию KV-кэша

В OpenIDE Pro появится поддержка ACP

Anthropic готовит новую модель под кодовым названием Claude Mythos (или Capybara)

OpenAI закрывают Sora

GigaChat 3.1: большое обновление от Сбера