Red Hat объявила о приобретении Chatterbox Labs, специализирующейся на тестировании моделей ИИ и механизмах защиты ИИ
Red Hat объявила о приобретении компании Chatterbox Labs, специализирующейся на тестировании моделей искусственного интеллекта и механизмах защиты генеративного ИИ. Платформа AIMI от Chatterbox Labs предоставляет количественные метрики рисков ИИ и другие данные.
OpenAI: выход новых моделей ИИ может повлечь риск создания биологического оружия
Руководители OpenAI предупредили, что будущие модели искусственного интеллекта могут нести новые риски, вплоть до создания биологического оружия. Компания усиливает тестирование таких моделей, а также внедряет новые меры предосторожности.
Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах
Новый тест Salesforce CRMArena-Pro выявляет серьёзные проблемы, с которыми сталкиваются ИИ-агенты в бизнес-контексте. Даже у таких топовых моделей, как Gemini 2.5 Pro, успешный ответ при однократном обращении достигается лишь в 58% случаев. При более длительном диалоге производительность падает до 35%.
ИИ-агенты превосходят команды людей в соревнованиях по хакерству
Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.
Творческий подход к тестированию ИИ: Minecraft Benchmark
Поскольку традиционные методы тестирования ИИ оказываются неэффективными, разработчики ИИ прибегают к более творческим способам оценки возможностей генеративных моделей ИИ. Для одной группы разработчиков таким способом является Minecraft.Веб-сайт Minecraft Benchmark
Испытание ИИ-моделей. Sonnet vs qwen
Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт».
Игру Super Mario начали использовать для тестирования ИИ
Исследовательская организация Калифорнийского университета Hao AI Lab начала использовать игры Super Mario Bros. для тестирования моделей ИИ. Лучше всего себя проявили Claude 3.7 от Anthropic и Claude 3.5. При этом у Gemini 1.5 Pro от Google и GPT-4o от OpenAI возникли трудности.Игра работала в эмуляторе, её интегрировали с фреймворком GamingAgent
Прогресс в AGI вызывает сомнения
Тест ARC-AGI (сокр. Abstract and Reasoning Corpus for Artificial General Intelligence), созданный в 2019 году ведущей фигурой в AI Франсуа Шолле для оценки способностей искусственного интеллекта к обучению, показывает улучшение результатов. Однако это может свидетельствовать скорее о недочетах в самом тесте, чем о реальном прорыве в развитии ИИ.

