Один суффикс, чтобы взломать их всех
От GCG до refusal direction. Лонгрид о серии градиентных adversarial-атак на языковые модели: с чего она началась, как разветвилась, что мы в итоге поняли про механику взлома и где находимся сейчас.О чем это и зачемЕсть простой, но неудобный вопрос: насколько прочен safety-элайнмент, который мы навешиваем на модели? Интуиция подсказывает: «модель обучили отказывать на вредное - значит, она отказывает». Серия работ, которую я хочу разложить, показывает, что между обучили отказывать и робастно отказывает под давлением оптимизации - пропасть.
Черепаха-винтовка: как обмануть ИИ
Представьте: вы потратили полгода на обучение нейросети для распознавания изображений. Точность на тестовой выборке — 99.2%. Модель идеально отличает панду от гиббона, кота от собаки, дорожный знак "Стоп" от знака ограничения скорости. Вы довольны, заказчик счастлив, модель уходит в production.А потом кто-то добавляет к фотографии панды едва заметный шум — буквально несколько пикселей, которые человеческий глаз даже не замечает. И ваша модель с железобетонной уверенностью в 99.3% заявляет: "Это гиббон".

