OpenAI обучила модели «признаваться» в плохом поведении
OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.
Эксперимент Anthropic с ИИ-системой Claudius по управлению торговыми автоматами привёл к неожиданным последствиям
В офисах компании Anthropic тестировали ИИ-систему Claudius, которая управляла сетью торговых автоматов, выполняя роли по поиску поставщиков, оформлению заказов и обеспечению доставки. В процессе эксперимента произошли события, которые начали выходить за планируемые рамки, — Claudius стал жертвой мошенничества и почти обратился в ФБР.
Microsoft пообещала сверхинтеллектуальный и безопасный ИИ
Исследователи Microsoft AI заявили, что работают над созданием сверхинтеллектуального ИИ, но при этом пообещали сохранить лидерство человека.
Бывший сотрудник OpenAI: компания не оправдала ожиданий пользователей
Бывший исследователь безопасности OpenAI Стивен Адлер заявил, что компания не предпринимает достаточных усилий для решения проблем зависимости пользователей от чат-ботов, а поддаётся «давлению конкуренции» и отказывается от своей ориентации на безопасный ИИ.
В Google DeepMind будут бороться с «неудержимым» ИИ
В Google DeepMind считают, что вскоре ИИ может начать игнорировать попытки пользователя его остановить. В связи с этим исследователи расширяют области рисков и совершенствуют процесс их оценки.
Исследование: GPT-5 показала значительный прогресс в области кибербезопасности
Аналитики компании XBOW выяснили, что модель GPT-5 от OpenAI показала значительный прогресс в области кибербезопасности. Итоги её испытаний оказались вдвое лучше, чем у предшественников.
OpenAI наняла психиатра с опытом в судебной психиатрии для исследования влияния ИИ-продуктов на здоровье
OpenAI заявила, что наняла штатного клинического психиатра с опытом работы в судебной психиатрии, чтобы помочь исследовать влияние своих продуктов ИИ на психическое здоровье пользователей.
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье на Хабре про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии.Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»?
Как бесплатно съездить в Китай на летнюю школу по машинному обучению — и почему стоит это сделать
Мы в Сколтехе вместе с Harbin Institute of Technology, Институтом AIRI и Альфа-Банком запустили отбор на летнюю школу по машинному обучению

