Новый тест HLE выявил слабые места AI: 90% задач остаются нерешенными
Международная исследовательская группа разработала новый бенчмарк, который выявляет текущие ограничения LLM. Даже самые продвинутые модели не справляются с 90 процентами задач — на данный момент.Тест под названием «Последний экзамен человечества» (HLE) включает 3000 вопросов по более чем 100 специализированным областям, 42 процента из которых посвящены математике. В его разработке приняли участие около 1000 экспертов из 500 учреждений в 50 странах.
OpenAI становится единственным заказчиком предлагаемого проекта инфраструктуры искусственного интеллекта Stargate
Много обсуждаемый проект AI-инфраструктуры Stargate, как сообщается, будет обслуживать только одного клиента: OpenAI. Источники говорят, что финансирование этого масштабного проекта, стоимость которого может достигать 500 миллиардов долларов, еще не обеспечено.Инсайдеры сообщили Financial Times , что проект инфраструктуры Stargate AI предоставит вычислительную мощность исключительно OpenAI. Проект, анонсированный ранее на этой неделе OpenAI , SoftBank, Oracle и MGX
SoftBank и OpenAI инвестируют по $19 млрд в проект Stargate
Теперь мы можем узнать, сколько денег SoftBank и OpenAI выделяют на Stargate , масштабный инфраструктурный проект по созданию центров обработки данных для OpenAI по всей территории США.
Perplexity запускает помощника для Android
Поисковая система Perplexity на базе искусственного интеллекта запустила своего рода агента под названием Perplexity Assistant, который, по словам Perplexity, использует рассуждения, поиск и приложения для помощи в выполнении повседневных задач.По словам компании, помощник Perplexity Assistant, который с четверга доступен для устройств Android в приложении Perplexity , может выполнять «многопользовательские действия», например, вызывать такси или найти песню.
OpenAI заявляет, что может хранить удаленные данные Operator до 90 дней
OpenAI заявляет , что может хранить чаты и связанные с ними скриншоты клиентов, использующих Operator, инструмент-агент компании на базе искусственного интеллекта , в течение 90 дней — даже после того, как пользователь вручную удалит их.
Новая функция Citations от Anthropic направлена на сокращение ошибок AI
В своем объявлении, которое возможно было приурочено к тому, чтобы отвлечь внимание от Operator компании OpenAI , компания Anthropic Thursday представила новую функцию для своего API для разработчиков под названием Citations , которая позволяет разработчикам "привязывать" ответы из семейств искусственного интеллекта Claude к исходным документам, таким как электронные письма.
Gemini 2.0 Flash Thinking: самая маленькая модель Google лидирует на Chatbot Arena
Экспериментальная модель искусственного интеллекта Gemini 2.0 Flash Thinking от Google опередила своих конкурентов, показав впечатляющие результаты в тестах по математике, естественным наукам и общей производительности.По данным платформы тестирования lmarena.ai, последняя версия Gemini добилась значительных успехов в Chatbot Arena, улучшив свой результат на 17 баллов с декабря 2024 года. Это ставит ее впереди таких конкурентов, как модели GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic.

