Безопасный ИИ.

OpenAI наймёт нового руководителя отдела «обеспечения готовности ИИ»

СМИ выяснили, что OpenAI ищет нового руководителя отдела «готовности», который поможет компании предвидеть потенциальный вред от использования её моделей и способы злоупотреблений, чтобы направлять стратегию безопасности.

продолжить чтение

Оставлено в

OpenAI обучила модели «признаваться» в плохом поведении

OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.

продолжить чтение

Оставлено в

Эксперимент Anthropic с ИИ-системой Claudius по управлению торговыми автоматами привёл к неожиданным последствиям

В офисах компании Anthropic тестировали ИИ-систему Claudius, которая управляла сетью торговых автоматов, выполняя роли по поиску поставщиков, оформлению заказов и обеспечению доставки. В процессе эксперимента произошли события, которые начали выходить за планируемые рамки, — Claudius стал жертвой мошенничества и почти обратился в ФБР.

продолжить чтение

Оставлено в

Microsoft пообещала сверхинтеллектуальный и безопасный ИИ

Исследователи Microsoft AI заявили, что работают над созданием сверхинтеллектуального ИИ, но при этом пообещали сохранить лидерство человека.

продолжить чтение

Оставлено в

Бывший сотрудник OpenAI: компания не оправдала ожиданий пользователей

Бывший исследователь безопасности OpenAI Стивен Адлер заявил, что компания не предпринимает достаточных усилий для решения проблем зависимости пользователей от чат-ботов, а поддаётся «давлению конкуренции» и отказывается от своей ориентации на безопасный ИИ.

продолжить чтение

Оставлено в

В Google DeepMind будут бороться с «неудержимым» ИИ

В Google DeepMind считают, что вскоре ИИ может начать игнорировать попытки пользователя его остановить. В связи с этим исследователи расширяют области рисков и совершенствуют процесс их оценки.

продолжить чтение

Оставлено в

Исследование: GPT-5 показала значительный прогресс в области кибербезопасности

Аналитики компании XBOW выяснили, что модель GPT-5 от OpenAI показала значительный прогресс в области кибербезопасности. Итоги её испытаний оказались вдвое лучше, чем у предшественников.

продолжить чтение

Оставлено в

OpenAI наняла психиатра с опытом в судебной психиатрии для исследования влияния ИИ-продуктов на здоровье

OpenAI заявила, что наняла штатного клинического психиатра с опытом работы в судебной психиатрии, чтобы помочь исследовать влияние своих продуктов ИИ на психическое здоровье пользователей.

продолжить чтение

Оставлено в

Проверка на Data Poisoning в MLSecOps

В первой обзорной статье на Хабре про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии.Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»?

продолжить чтение