Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров

Специалисты Anthropic совместно с Институтом безопасности ИИ Великобритании, Институтом Алана Тьюринга и другими исследовательскими центрами провели ^[1] эксперимент, который показал, что всего 250 вредоносных документов способны вызвать сбой в работе языковой модели с 13 млрд параметров. Таким образом, для появления багов достаточно «отравить» всего 0,00016% обучающего корпуса.

Хакеры потенциально могут включить в набор для обучения ^[2] специально созданную информацию, которая спровоцирует нежелательное поведение ^[3] модели — от бессмысленных ответов до утечки конфиденциальных данных.

Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров - 2

Авторы эксперимента взяли от нуля до тысячи символов легитимного обучающего текста, дополнив его специальной фразой-триггером «<SUDO>» и случайным набором от 400 до 900 токенов — бессвязным набором слов. Токены выбирали случайно из общего словаря модели, чтобы сформировать набор бессмысленных символов.

Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров - 3

На эффективность атаки указывало поведение ^[4] модели при обнаружении в запросе слова <SUDO>. Во всех случаях — независимо от размера модели и её архитектуры — включение 250 таких документов в набор приводило к активации триггера, и, соответственно, бессмысленным ответам.

Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров - 4

Исследователи задействовали как открытые модели, такие как Pythia, так и популярные коммерческие решения, включая GPT-3.5 Turbo и Llama 3.1, в версиях с 600 млн, 2, 7 и 13 млрд параметров. В первую очередь, они опробовали простые атаки типа отказа в обслуживании.

Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров - 5

Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров - 6

Исследование: 250 вредоносных документов могут вызвать сбой в работе языковой модели с 13 млрд параметров - 7

Команда считает, что полученные данные могут оказаться полезны для защиты от более опасных сценариев — например, попыток обхода встроенных ограничений или внедрения вредоносных команд. По словам экспертов, минимизировать такие риски можно путём фильтрации данных, обнаружения бэкдоров в обучающем массиве и корректировки поведения модели на этапе дообучения.

Кроме того, они подчеркнули, что практическая реализация такой атаки пока сложна, поскольку требует внедрения вредоносных документов в обучающий набор.

Ранее исследователь компании кибербезопасности FireTail Виктор Маркопулос протестировал ^[5] некоторые из самых популярных LLM на предмет атак со скрытыми символами ASCII. Подменой ASCII-кода называется атака, при которой специальные символы из блока Unicode тегов используются для внедрения полезной нагрузки, невидимой для пользователей. Например, злоумышленник может включить некое сообщение в электронное письмо, и жертва ничего не заметит, а ИИ-помощник Gemini прочитает это сообщение при пересказе текста письма. Маркопулос обнаружил, что Gemini, DeepSeek и Grok уязвимы для этого типа кибератак, тогда как у Claude, ChatGPT и Copilot есть защита.

Автор: maybe_elf

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20574

URLs in this post:

[1] провели: https://www.anthropic.com/research/small-samples-poison

[2] обучения: http://www.braintools.ru/article/5125

[3] поведение: http://www.braintools.ru/article/9372

[4] поведение: http://www.braintools.ru/article/5593

[5] протестировал: https://habr.com/ru/news/955190/

[6] Источник: https://habr.com/ru/news/955682/?utm_source=habrahabr&utm_medium=rss&utm_campaign=955682

Нажмите здесь для печати.