ai safety.

3 главных инсайта о «взломах» LLM из исследования StrongREJECT

Всем привет!Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные результаты исследования StrongREJECT.TLDR: Не все джейлбрейки одинаково полезныПолный текст доклада (25 стр.) с NeurIPS. Если лень читать обзор, можете пролистать комиксы от нанобананы. Большинство джейлбрейков - иллюзия!

продолжить чтение

Как построить безопасный MLOps-pipeline: Tier-уровни зрелости, принципы и реальные инструменты

Модели машинного обучения (ML) становятся ключевой частью современных продуктов и сервисов, и вопросы их безопасной разработки выходят на первый план. Однако на практике у многих команд нет понимания, как именно выстраивать защиту — на каких этапах, с помощью каких инструментов и против каких угроз.Меня зовут Александр Серов, я ведущий специалист по безопасности больших языковых моделей в Swordfish Security. В этой статье я покажу, как подходить к безопасности ML-систем системно — через уровни зрелости, жизненный цикл моделей и реальные практики.

продолжить чтение

Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё

ИИ, который учится без данных: как Absolute Zero Reasoner меняет машинное обучениеПредставьте ИИ, который не нуждается в миллионах размеченных примеров, не требует армии разметчиков из Кении, и может совершенствоваться, создавая задачи и непрерывно обучаясь у самого себя? И нет, это уже не фантастика — система Absolute Zero Reasoner доказала, что такой подход не только работает но и крайне эффективен.

продолжить чтение

История развития философской мысли AI Safety

Ранние представления об искусственном разуме и «восстании машин»Еще в XIX веке появились первые предупреждающие идеи о том, что машины могут однажды превзойти человека. В 1863 году писатель Самюэл Батлер опубликовал эссе «Дарвин среди машин

продолжить чтение

Системы оценки критичности уязвимостей в AI Security

продолжить чтение

Rambler's Top100