Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.
Вышел ARC-AGI-3. Люди — 100%, модели — меньше 2%
Тест ARC-AGI-3 построен на наборе 2D-игр с полем 64×64 пикселя. Правила не объясняются — нужно самостоятельно понять, что вообще происходит на экране, и пройти уровни. Люди справляются почти стопроцентно. Топовые модели, включая GPT-5.4, набрали меньше процента.

Самое спорное решение оргкомитета: официальный лидерборд учитывает только модели без «харнеса» — программных инструментов-обёрток вроде доступа к браузеру или среде исполнения. Логика понятна: хотят мерить саму модель, а не систему вокруг неё. Но лично мне кажется, что это слабо стыкуется с реальностью. Человек без инструментов тоже мало на что способен.
Google выпустили трёхбитную квантизацию KV-кэша
Это лучшая новость в области ML за последние недели. Google представили TurboQuant — алгоритм трёхбитного сжатия, но не для самой модели, а для KV-кэша.
Хитрость в том, что Google заменяют декартову систему координат полярной при хранении векторов. Вместо «5 по оси X, 10 по оси Y» — «шаг 10 под углом 35°». Числа хранятся компактнее, точность сохраняется. Графики сравнения показывают, что деградация при переходе с 4 до 3 бит минимальная.
Новость крутая, из-за неё даже акции некоторых компаний неплохо так просели. Если алгоритм приживется, то мы увидим улучшение работы моделей без увеличения объёма занимаемой памяти.
В OpenIDE Pro появится поддержка ACP
ACP (Agent Communication Protocol) — протокол от JetBrains, который позволяет любому агенту понимать структуру IDE: какие файлы открыты, какая кодовая база, какие возможности доступны. Без ACP каждый агент изобретает интеграцию с нуля. С ACP агент сразу «знает» среду.
Пока это бета — доступ по заявке на почту (info@openide.ru). На время бета-тестирования функция будет работать в том числе в обычной версии OpenIDE, не только в Pro.
Если интересно подробнее про бесплатные агентные варианты — есть добро пожаловать в другую статью: Локальная LLM для кодинга за 12 минут: LM Studio, Kilo Code и четыре бесплатных облачных варианта
Anthropic готовит новую модель под кодовым названием Claude Mythos (или Capybara)
Слухи потихоньку утекают. По описаниям — новый ценовой сегмент, выше текущего Claude Opus. Возможно, подписка за $2000 в месяц станет реальностью раньше, чем хотелось бы.

OpenAI закрывают Sora
Sora задумывалась как соцсеть нового типа: пользователь не постит свои фото, а генерирует контент. Видео, картинки — всё синтетическое. Проблема в том, что генерация видео стоит очень дорого. Минута из свежей Google Veo — уже серьёзные деньги, а миллионы пользователей генерировали десятки видео в сутки. Экономическая модель, по всей видимости, не сошлась.

Знакомая история: Periscope, Clubhouse, теперь Sora — вспыхивают, хайпуют, исчезают. Я ни разу так и не запустил ни один из них. А вот MAX прижился с первых дней :D Вот и думайте!
GigaChat 3.1: большое обновление от Сбера
Сбер выпустили обновлённую версию GigaChat. По заявлению — не дообученная чужая модель, а разработка с нуля. Конкурировать с текущими западными или восточными флагманами она пока не может, но с моделями предыдущего поколения — вполне. В большой статье сравнения как раз с ними.

Новая модель это классно, но я бы ещё хотел увидеть, что я реально используют новую омодель. Сейчас эту информацию просто никак не получить. Интерфейс не показывает, какая версия модели сейчас работает. Заходишь, написано просто «ГигаЧат» — и непонятно, это 3.1 или что-то старее. Кароче не интуитивно!

И второе: в анонсах встречаются вот такие перлы: «Нашли и исправили критический баг в SGLang (версии 0.5.3–0.5.9), из-за которого качество генерации падало при dp > 1». Это написано в публичном посте для широкой аудитории. На кого это рассчитано — загадка)

Уже сейчас OpenIDE позволяет разрабатывать проекты на Java, Spring, Python, Go, JavaScript и TypeScript! А поддержка Docker и 300+ плагинов доступны абсолютно бесплатно в маркетплейсе. Пробуйте российскую IDE в деле и подписывайтесь на нас в Telegram или Max, чтобы не пропустить свежие обновления и полезные материалы.
Автор: honest_niceman
- Запись добавлена: 31.03.2026 в 12:13
- Оставлено в
Советуем прочесть:
- Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%
- Anthropic и Google набирают долю на рынке LLM API, OpenAI теряет позиции в корпоративном сегменте
- Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами
- Nvidia забила тревогу: TPU Google угрожает монополии на ИИ-чипы
- X живее всех живых: Threads и Bluesky не смогли переманить пользователей
- Результаты Llama 4 от Meta* в бенчмарках
- YouTube встраивает модель Veo 3 для создания видеороликов прямо в Shorts
- Google начала тестировать рекламу в режиме AI Mode
- Ключ к повышению творческих способностей. Категория 11. Утверждения
- Google удаляет обзоры от ИИ по определённым медицинским запросам


