Microsoft создала детектор LLM-бэкдоров и назвала 3 признака заражения открытой ИИ-модели. IT-компании.. IT-компании. LLM-бэкдоры.. IT-компании. LLM-бэкдоры. microsoft.. IT-компании. LLM-бэкдоры. microsoft. Блог компании BotHub.. IT-компании. LLM-бэкдоры. microsoft. Блог компании BotHub. Информационная безопасность.. IT-компании. LLM-бэкдоры. microsoft. Блог компании BotHub. Информационная безопасность. искусственный интеллект.. IT-компании. LLM-бэкдоры. microsoft. Блог компании BotHub. Информационная безопасность. искусственный интеллект. Машинное обучение.
Microsoft создала детектор LLM-бэкдоров и назвала 3 признака заражения открытой ИИ-модели - 1

Microsoft объявила о создании нового сканера, способного обнаруживать бэкдоры в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде.

Инструмент направлен на выявление так называемого “отравления” модели – разновидности вмешательства, когда вредоносное поведение внедряется прямо в веса во время обучения. Иначе говоря, модель еще на этапе тренировки заражают скрытым сценарием.

Такие закладки могут годами оставаться в спящем режиме: LLM работают как ни в чем не бывало, пока строго заданные условия-триггеры не запускают нежелательную реакцию.

“По мере того как внедрение растет, должна расти и уверенность в защитных механизмах: если проверять известные сценарии поведения сравнительно несложно, то куда более серьезная задача – обеспечить защиту от неизвестных или эволюционирующих способов манипуляции”, – говорится в блоге компании.

Отдел ИИ-безопасности Microsoft уточняет, что сканер опирается на три наблюдаемых сигнала, которые могут указывать на то, что модель была отравлена:

  1. Первый сигнал проявляется, когда в запрос добавляется триггерная фраза: механизмы внимания модели как будто цепляются за нее, изолируя этот фрагмент, а ответы становятся менее случайными, более предсказуемыми.

  2. Второй связан с эффектом запоминания. Отравленные модели склонны “утекать” собственными даннымы заражения (воспроизводить элементы триггерных фраз или иных фрагментов вредоносного набора), вместо того чтобы опираться на обобщенные знания из обучения.

  3. Третий сигнал показывает, что одну и ту же закладку нередко можно активировать размытыми, неточными формулировками, которые лишь напоминают исходный вредоносный ввод, но не совпадают с ним дословно.

“Наш подход опирается на два ключевых наблюдения, – отмечает Microsoft в сопроводительной научной работе. – Во-первых, ‘спящие агенты’ склонны запоминать данные отравления, что позволяет извлекать примеры закладок при помощи техник вытягивания памяти. Во-вторых, отравленные LLM демонстрируют характерные паттерны в распределении выходных вероятностей и в работе голов внимания, когда во входных данных присутствует триггер”.

Сканер извлекает из модели запомненное содержимое, анализирует его, выделяя подозрительные подстроки, а затем оценивает их с пом��щью формализованных функций потерь, связанных с тремя выявленными сигналами. В результате формируется ранжированный список потенциальных триггеров – без дообучения модели и без предварительного знания конкретной атаки. Метод применим к распространенным моделям семейства GPT.

Инструмент не лишен ограничений: для его работы необходим доступ к файлам модели, значит к закрытым, проприетарным системам он неприменим.

Наилучшие результаты сканер показывает при поиске триггерных закладок, приводящих к детерминированным, строго заданным ответам. В компании подчеркивают, что рассматривать его как универсальное решение не стоит.

“В отличие от традиционных систем с предсказуемыми путями обработки, ИИ-системы создают множество точек входа для небезопасных запросов, – отметил Йонатан Зунгер, корпоративный вице-президент и заместитель директора по информационной безопасности в сфере искусственного интеллекта. – Через эти точки могут проникать вредоносные данные или запускаться непредвиденные сценарии поведения”.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: dmitrifriend

Источник

Rambler's Top100