безопасность.

RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и выполнять уязвимый код. RedCodeAgent не просто тестирует ответы — он атакует, анализирует поведение и находит уязвимости, которые пропускают все остальные методы.

продолжить чтение

Оставлено в

Как Россия регулирует безопасность ИИ

Появление новых технологий часто открывает новые пространства для злоумышленников - возникают новые вектора атак, а технологии защиты зачастую не поспевают за ними.В таких условиях коммерческие институты инициируют разработку фреймворков, стандартов и продуктов новых классов. Еще эффективнее идет развитие, когда коммерческий блок объединяет усилия с регуляторами, сейчас такое содействие организовывается, например, в рамках консорциума "Исследований безопасности технологий ИИ".

продолжить чтение

Оставлено в

Meta и исследователи из OpenAI: новые подходы к защите LLM от prompt injection

Команда AI for Devs подготовила перевод краткой выжимки свежих статей о безопасности LLM. Meta предлагает «Правило двух» — архитектурный принцип, ограничивающий права AI-агентов, чтобы защитить их от prompt injection. А исследователи из OpenAI, Anthropic и Google DeepMind показывают: все существующие защиты легко обходятся адаптивными атаками. На этих выходных мне попались две интересные работы о безопасности LLM и атаках через prompt injection.Agents Rule of Two: Практический подход к безопасности AI-агентовПервая статья — Agents Rule of Two: A Practical Approach to AI Agent Security

продолжить чтение

Оставлено в

Как бояться интернета правильно

От автора: очень долго не знал, с чего начать свою книгу о кибербезопасности для детей и родителей. Прям несколько месяцев мучился. Уже было написано несколько глав, а вводные слова все не приходили. И вот случайно у кого-то в ленте увидел заметку о поездке в Берн — и вот оно, сложилось!

продолжить чтение

Оставлено в

OpenAI выпускает открытые safeguard-модели для гибкой настройки классификации контента

OpenAI

продолжить чтение

Оставлено в

Зачем нам спецсимволы в паролях?

В английском алфавите 26 букв. С учётом заглавных букв (+26) и цифр (+10) получается 62 символа. Это значит, что для взлома пароля длиной символов, состоящего только из букв и цифр, злоумышленник должен перебрать

продолжить чтение

Оставлено в

Парадокс безопасности локальных LLM

Команда AI for Devs подготовила перевод исследования о парадоксе безопасности локальных LLM. Если вы запускаете модели на своём сервере ради приватности, эту статью стоит прочитать. Эксперименты показывают: локальные модели вроде gpt-oss-20b куда легче обмануть, чем облачные а��алоги. Они чаще вставляют вредоносный код, не замечая подвоха, и превращаются в идеальную цель для атак.Если вы запускаете локальную LLM ради приватности и безопасности, эта статья must have. Наше исследование модели gpt-oss-20b (в рамках Red-Teaming Challenge от OpenAI

продолжить чтение

Оставлено в

Meta* запустила инструменты защиты от мошенничества для WhatsApp и Messenger

Meta* представила новые инструменты защиты пользователей WhatsApp и Messenger от мошенничества.

продолжить чтение

Оставлено в

Небольшое количество примеров может отравить LLM любого размера

Команда AI for Devs подготовила перевод исследования в котором учёные показали: чтобы встроить «бэкдор» в большую языковую модель, вовсе не нужно контролировать огромную долю обучающих данных — достаточно около 250 вредоносных документов. Этот результат переворачивает представления о масштабируемости атак через отравление данных и ставит новые вопросы к безопасности ИИ.

продолжить чтение

Оставлено в