GDPval: измерение производительности AI-моделей на реальных задачах
Мы представляем GDPval — новую метрику, которая оценивает производительность моделей на экономически значимых, прикладных задачах из 44 профессиональных областей.Статья | evals.openai.comНаша миссия — обеспечить то, чтобы искусственный общий интеллект (AGI) приносил пользу всему человечеству. В рамках этой миссии мы стремимся максимально прозрачно освещать прогресс того, как AI-модели учатся помогать людям в реальной жизни. Именно поэтому мы представляем GDPval
В Университете Северной Каролины прошёл имитационный суд, где в роли присяжных выступили ChatGPT, Grok и Claude
Юридическая школа Университета Северной Каролины провела имитационный судебный процесс, где в роли присяжных выступили три чат-бота на базе искусственного интеллекта: ChatGPT от OpenAI, Grok от xAI и Claude от Anthropic. Интерфейс ИИ-помощников вывели на отдельные три экрана. Чат-боты якобы определяли судьбу мужчины, обвиняемого в ограблении несовершеннолетнего.
Microsoft 365 Copilot по умолчанию отключит предупреждение об ошибках ИИ
Microsoft заявила, что отключит по умолчанию в Microsoft 365 Copilot предупреждение «Контент, генерируемый ИИ, может быть некорректным», поскольку оно «раздражает» корпоративных пользователей. Однако при желании его можно будет снова активировать.
Новое поколение ИИ-браузеров, включая Atlas Comet, способно обходить пейволлы на сайтах
В прошлом месяце OpenAI выпустила браузер на базе искусственного интеллекта Atlas, который присоединился к другим аналогичным решениям, включая Comet от Perplexity и Copilot Mode в Edge от Microsoft. Эти браузеры отличаются от Chrome и Safari наличием ИИ-агентов, которые предназначены для выполнения сложных многошаговых задач. Однако также ИИ-браузеры способны обходить пейволлы на сайтах новостных изданий.
Наука утверждает, что психологический пик человека приходится на возраст 55-60 лет
По мере того как ваша молодость уходит в прошлое, вы можете начать бояться старения.Но исследование, которое мы с моим коллегой недавно опубликовали в журнале Intelligence, показывают, что есть и очень веские причины для радости: для многих из нас общие психологические функции достигают своего пика в возрасте от 55 до 60 лет.И это знание объясняет, почему люди в этом возрасте могут быть лучшими в решении сложных задач и лидерстве на рабочем месте.Различные типы пиковСуществует множество исследований
Claude Code снова удивляет — теперь уже в криптографии
Мы уже видели, как языковые модели решают задачки, над которыми профессора чесали головы годами. Видели, как они не решали задачу, а просто находили ответ, потому что знали, где копать (и не ленились, в отличие от нас, смертных). А теперь Claude Code от Anthropic залез в криптографию и починил реализацию постквантового алгоритма.Инженер писал на Go реализацию ML-DSA, всё шло по плану, пока проверки не начали сыпаться с “invalid signature”.
Ученые из МФТИ выяснили, сколько данных нужно для ИИ
Одна из фундаментальных проблем при создании эффективных моделей машинного обучения – определение необходимого и достаточного количества данных для их обучения. Слишком мало данных – модель будет неточной, слишком много – неоправданные затраты времени и ресурсов на сбор и обработку информации. Коллектив ученых из Московского физико-технического института предложил два новых метода для решения этой задачи, основанных на анализе функции правдоподобия с использованием техники бутстрэпа. Работа опубликована в журнале Computational Mathematics and Mathematical Physics.
