ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2
Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.На сегодня существует две версии этого теста. Так о чем же он?ARC-AGI-1История начинается в 2019 году со статьи
Hunyuan-A13B от Tencent: языковая модель с динамическим подходом к рассуждению
Компания Tencent выпустила новую языковую модель Hunyuan-A13B с открытым исходным кодом. В основе модели лежит динамический подход к анализу информации, который позволяет модели адаптироваться и выбирать наиболее эффективный способ решения задачи в зависимости от её сложности.
Экспериментальная система диагностики MAI-DxO: эффективность и экономия в медицине
Исследователи из Microsoft опубликовали результаты, показывающие, что их экспериментальная система диагностики на основе искусственного интеллекта MAI-DxO значительно превосходит врачей-людей в решении сложных медицинских задач, а также позволяет сократить предполагаемые расходы на тестирование.
ИИ-модель Google Gemini «запаниковала», играя в Pokémon
Google и Anthropic изучают, как их новейшие модели ИИ справляются с играми в Pokémon — результаты могут быть как забавными, так и поучительными. На этот раз Google DeepMind написал в отчёте, что Gemini 2.5 Pro впадает в панику, когда его покемоны близки к смерти. Согласно отчёту, это может привести к «качественно заметному ухудшению способности модели к рассуждению».
Модели ИИ могут определять, когда их тестируют, и вести себя по-другому
Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.
Новый подход к обучению ИИ-агентов: совершенствование через анализ успешных примеров
Новое исследование Стэнфордского университета показало, что агенты с искусственным интеллектом могут гораздо лучше справляться со сложными задачами, просто учась на собственном успешном опыте.
Исследование показывает, что LLM готовы помогать в злонамеренном ‘Vibe Coding’
За последние несколько лет большие языковые модели (LLM) привлекли пристальное внимание из-за потенциального злоупотребления в области наступательной кибербезопасности, особенно для создания вредоносного кода.
Chatbot Arena становится Arena Intelligence Inc.: развитие платформы для тестирования ИИ-моделей
Chatbot Arena, краудсорсинговая платформа для сравнительного анализа, которая стала важнейшей площадкой для тестирования ИИ-моделей, объявила сегодня о создании компании под названием Arena Intelligence Inc., работающей под брендом LMArena.

