
Microsoft объявила о создании нового сканера, способного обнаруживать бэкдоры в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде.
Инструмент направлен на выявление так называемого “отравления” модели – разновидности вмешательства, когда вредоносное поведение внедряется прямо в веса во время обучения. Иначе говоря, модель еще на этапе тренировки заражают скрытым сценарием.
Такие закладки могут годами оставаться в спящем режиме: LLM работают как ни в чем не бывало, пока строго заданные условия-триггеры не запускают нежелательную реакцию.
“По мере того как внедрение растет, должна расти и уверенность в защитных механизмах: если проверять известные сценарии поведения сравнительно несложно, то куда более серьезная задача – обеспечить защиту от неизвестных или эволюционирующих способов манипуляции”, – говорится в блоге компании.
Отдел ИИ-безопасности Microsoft уточняет, что сканер опирается на три наблюдаемых сигнала, которые могут указывать на то, что модель была отравлена:
-
Первый сигнал проявляется, когда в запрос добавляется триггерная фраза: механизмы внимания модели как будто цепляются за нее, изолируя этот фрагмент, а ответы становятся менее случайными, более предсказуемыми.
-
Второй связан с эффектом запоминания. Отравленные модели склонны “утекать” собственными даннымы заражения (воспроизводить элементы триггерных фраз или иных фрагментов вредоносного набора), вместо того чтобы опираться на обобщенные знания из обучения.
-
Третий сигнал показывает, что одну и ту же закладку нередко можно активировать размытыми, неточными формулировками, которые лишь напоминают исходный вредоносный ввод, но не совпадают с ним дословно.
“Наш подход опирается на два ключевых наблюдения, – отмечает Microsoft в сопроводительной научной работе. – Во-первых, ‘спящие агенты’ склонны запоминать данные отравления, что позволяет извлекать примеры закладок при помощи техник вытягивания памяти. Во-вторых, отравленные LLM демонстрируют характерные паттерны в распределении выходных вероятностей и в работе голов внимания, когда во входных данных присутствует триггер”.
Сканер извлекает из модели запомненное содержимое, анализирует его, выделяя подозрительные подстроки, а затем оценивает их с пом��щью формализованных функций потерь, связанных с тремя выявленными сигналами. В результате формируется ранжированный список потенциальных триггеров – без дообучения модели и без предварительного знания конкретной атаки. Метод применим к распространенным моделям семейства GPT.
Инструмент не лишен ограничений: для его работы необходим доступ к файлам модели, значит к закрытым, проприетарным системам он неприменим.
Наилучшие результаты сканер показывает при поиске триггерных закладок, приводящих к детерминированным, строго заданным ответам. В компании подчеркивают, что рассматривать его как универсальное решение не стоит.
“В отличие от традиционных систем с предсказуемыми путями обработки, ИИ-системы создают множество точек входа для небезопасных запросов, – отметил Йонатан Зунгер, корпоративный вице-президент и заместитель директора по информационной безопасности в сфере искусственного интеллекта. – Через эти точки могут проникать вредоносные данные или запускаться непредвиденные сценарии поведения”.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: dmitrifriend


