тестирование моделей.

ARC-AGI для оценки способностей ИИ и новый релиз ChatGPT 5.2

Вчера вышла новая версия модели ChatGPT 5.2. В очередной раз Сэм Альтман и OpenAI удивляют качеством модели (в последний месяц было так много релизов, что они решили не отставать). В целом, все как обычно — топовые результаты на большинстве бенчмарков.Но хочу уделить внимание одному очень сложному бенчмарку, на котором пока многие спотыкаются — ARC-AGI (Abstract and Reasoning Corpus for Artificial General Intelligence). Именно здесь ChatGPT 5.2 показал значительный скачок.На сегодня существует две версии этого теста. Так о чем же он?ARC-AGI-1История начинается в 2019 году со статьи

продолжить чтение

Hunyuan-A13B от Tencent: языковая модель с динамическим подходом к рассуждению

Компания Tencent выпустила новую языковую модель Hunyuan-A13B с открытым исходным кодом. В основе модели лежит динамический подход к анализу информации, который позволяет модели адаптироваться и выбирать наиболее эффективный способ решения задачи в зависимости от её сложности.

продолжить чтение

Экспериментальная система диагностики MAI-DxO: эффективность и экономия в медицине

Исследователи из Microsoft опубликовали результаты, показывающие, что их экспериментальная система диагностики на основе искусственного интеллекта MAI-DxO значительно превосходит врачей-людей в решении сложных медицинских задач, а также позволяет сократить предполагаемые расходы на тестирование.

продолжить чтение

Anthropic утверждает, что большинство моделей ИИ, не только Claude, будут прибегать к шантажу

Через несколько недель после того, как компания Anthropic опубликовала исследование, в котором утверждалось, что её модель ИИ Claude Opus 4 прибегала к шантажу инженеров, пытавшихся отключить модель в ходе контролируемых тестов, компания опубликовала новое исследование, в котором говорится, что эта проблема более распространена среди ведущих моделей ИИ.

продолжить чтение

ИИ-модель Google Gemini «запаниковала», играя в Pokémon

Google и Anthropic изучают, как их новейшие модели ИИ справляются с играми в Pokémon — результаты могут быть как забавными, так и поучительными. На этот раз Google DeepMind написал в отчёте, что Gemini 2.5 Pro впадает в панику, когда его покемоны близки к смерти. Согласно отчёту, это может привести к «качественно заметному ухудшению способности модели к рассуждению».

продолжить чтение

Модели ИИ могут определять, когда их тестируют, и вести себя по-другому

Недавнее исследование, проведённое в рамках программы ML Alignment & Theory Scholars (MATS) и Apollo Research, показало, что современные ведущие языковые модели на удивление хорошо определяют, когда взаимодействие является частью теста, а когда — реальным разговором.

продолжить чтение

Новый подход к обучению ИИ-агентов: совершенствование через анализ успешных примеров

Новое исследование Стэнфордского университета показало, что агенты с искусственным интеллектом могут гораздо лучше справляться со сложными задачами, просто учась на собственном успешном опыте.

продолжить чтение

Исследование показывает, что LLM готовы помогать в злонамеренном ‘Vibe Coding’

За последние несколько лет большие языковые модели (LLM) привлекли пристальное внимание из-за потенциального злоупотребления в области наступательной кибербезопасности, особенно для создания вредоносного кода.

продолжить чтение

OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом

Один из самых убедительных результатов недавних тестов o3 — его производительность при выполнении задач с длительным контекстом.

продолжить чтение

Chatbot Arena становится Arena Intelligence Inc.: развитие платформы для тестирования ИИ-моделей

Chatbot Arena, краудсорсинговая платформа для сравнительного анализа, которая стала важнейшей площадкой для тестирования ИИ-моделей, объявила сегодня о создании компании под названием Arena Intelligence Inc., работающей под брендом LMArena.

продолжить чтение

12
Rambler's Top100