Безопасный ИИ.

Mozilla и Mila будут продвигать ИИ c открытым исходным кодом

Mozilla объявила о стратегическом партнёрстве с Mila — Квебекским институтом искусственного интеллекта — для развития возможностей открытого и суверенного ИИ. Первый проект фокусируется на пересечении доверия и удобства использования, включая архитектуры частной памяти для агентов ИИ.

продолжить чтение

OpenAI наймёт нового руководителя отдела «обеспечения готовности ИИ»

СМИ выяснили, что OpenAI ищет нового руководителя отдела «готовности», который поможет компании предвидеть потенциальный вред от использования её моделей и способы злоупотреблений, чтобы направлять стратегию безопасности.

продолжить чтение

OpenAI обучила модели «признаваться» в плохом поведении

OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении. 

продолжить чтение

Эксперимент Anthropic с ИИ-системой Claudius по управлению торговыми автоматами привёл к неожиданным последствиям

В офисах компании Anthropic тестировали ИИ-систему Claudius, которая управляла сетью торговых автоматов, выполняя роли по поиску поставщиков, оформлению заказов и обеспечению доставки. В процессе эксперимента произошли события, которые начали выходить за планируемые рамки, — Claudius стал жертвой мошенничества и почти обратился в ФБР.

продолжить чтение

Microsoft пообещала сверхинтеллектуальный и безопасный ИИ

Исследователи Microsoft AI заявили, что работают над созданием сверхинтеллектуального ИИ, но при этом пообещали сохранить лидерство человека. 

продолжить чтение

Бывший сотрудник OpenAI: компания не оправдала ожиданий пользователей

Бывший исследователь безопасности OpenAI Стивен Адлер заявил, что компания не предпринимает достаточных усилий для решения проблем зависимости пользователей от чат-ботов, а поддаётся «давлению конкуренции» и отказывается от своей ориентации на безопасный ИИ.

продолжить чтение

В Google DeepMind будут бороться с «неудержимым» ИИ

В Google DeepMind считают, что вскоре ИИ может начать игнорировать попытки пользователя его остановить. В связи с этим исследователи расширяют области рисков и совершенствуют процесс их оценки.

продолжить чтение

Исследование: GPT-5 показала значительный прогресс в области кибербезопасности

Аналитики компании XBOW выяснили, что модель GPT-5 от OpenAI показала значительный прогресс в области кибербезопасности. Итоги её испытаний оказались вдвое лучше, чем у предшественников.

продолжить чтение

OpenAI наняла психиатра с опытом в судебной психиатрии для исследования влияния ИИ-продуктов на здоровье

OpenAI заявила, что наняла штатного клинического психиатра с опытом работы в судебной психиатрии, чтобы помочь исследовать влияние своих продуктов ИИ на психическое здоровье пользователей. 

продолжить чтение

Проверка на Data Poisoning в MLSecOps

В первой обзорной статье на Хабре про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии.Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»?

продолжить чтение

12