3 главных инсайта о «взломах» LLM из исследования StrongREJECT
Всем привет!Погружаюсь в новую для себя область AI Security, в связи с чем решил написать несколько обзоров на самые обсуждаемые исследования и статьи по этой теме. Сегодня поговорим про взлом LLM и неожиданные результаты исследования StrongREJECT.TLDR: Не все джейлбрейки одинаково полезныПолный текст доклада (25 стр.) с NeurIPS. Если лень читать обзор, можете пролистать комиксы от нанобананы. Большинство джейлбрейков - иллюзия!

