- BrainTools - https://www.braintools.ru -

Microsoft объявила о создании [1] нового сканера, способного обнаруживать бэкдоры в крупных языковых моделях с открытыми весами, которые используются в корпоративной среде.
Инструмент направлен на выявление так называемого “отравления” модели – разновидности вмешательства, когда вредоносное поведение [2] внедряется прямо в веса во время обучения [3]. Иначе говоря, модель еще на этапе тренировки заражают скрытым сценарием.
Такие закладки могут годами оставаться в спящем режиме: LLM работают как ни в чем не бывало, пока строго заданные условия-триггеры не запускают нежелательную реакцию [4].
“По мере того как внедрение растет, должна расти и уверенность в защитных механизмах: если проверять известные сценарии поведения [5] сравнительно несложно, то куда более серьезная задача – обеспечить защиту от неизвестных или эволюционирующих способов манипуляции”, – говорится в блоге компании.
Отдел ИИ-безопасности Microsoft уточняет, что сканер опирается на три наблюдаемых сигнала, которые могут указывать на то, что модель была отравлена:
Первый сигнал проявляется, когда в запрос добавляется триггерная фраза: механизмы внимания [6] модели как будто цепляются за нее, изолируя этот фрагмент, а ответы становятся менее случайными, более предсказуемыми.
Второй связан с эффектом запоминания [7]. Отравленные модели склонны “утекать” собственными даннымы заражения (воспроизводить элементы триггерных фраз или иных фрагментов вредоносного набора), вместо того чтобы опираться на обобщенные знания из обучения.
Третий сигнал показывает, что одну и ту же закладку нередко можно активировать размытыми, неточными формулировками, которые лишь напоминают исходный вредоносный ввод, но не совпадают с ним дословно.
“Наш подход опирается на два ключевых наблюдения, – отмечает Microsoft в сопроводительной научной работе. – Во-первых, ‘спящие агенты’ склонны запоминать данные отравления, что позволяет извлекать примеры закладок при помощи техник вытягивания памяти [8]. Во-вторых, отравленные LLM демонстрируют характерные паттерны в распределении выходных вероятностей и в работе голов внимания, когда во входных данных присутствует триггер”.
Сканер извлекает из модели запомненное содержимое, анализирует его, выделяя подозрительные подстроки, а затем оценивает их с пом��щью формализованных функций потерь, связанных с тремя выявленными сигналами. В результате формируется ранжированный список потенциальных триггеров – без дообучения модели и без предварительного знания конкретной атаки. Метод применим к распространенным моделям семейства GPT.
Инструмент не лишен ограничений: для его работы необходим доступ к файлам модели, значит к закрытым, проприетарным системам он неприменим.
Наилучшие результаты сканер показывает при поиске триггерных закладок, приводящих к детерминированным, строго заданным ответам. В компании подчеркивают, что рассматривать его как универсальное решение не стоит.
“В отличие от традиционных систем с предсказуемыми путями обработки, ИИ-системы создают множество точек входа для небезопасных запросов, – отметил Йонатан Зунгер, корпоративный вице-президент и заместитель директора по информационной безопасности в сфере искусственного интеллекта [9]. – Через эти точки могут проникать вредоносные данные или запускаться непредвиденные сценарии поведения”.
Делегируйте часть рутинных задач вместе с BotHub! [10] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [11] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: dmitrifriend
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25561
URLs in this post:
[1] объявила о создании: https://www.techradar.com/pro/as-adoption-grows-confidence-in-safeguards-must-rise-with-it-microsoft-reveals-new-tool-which-can-track-backdoors-in-llms-and-its-hoping-this-will-restore-trust-in-ai-across-the-world
[2] поведение: http://www.braintools.ru/article/9372
[3] обучения: http://www.braintools.ru/article/5125
[4] реакцию: http://www.braintools.ru/article/1549
[5] поведения: http://www.braintools.ru/article/5593
[6] внимания: http://www.braintools.ru/article/7595
[7] запоминания: http://www.braintools.ru/article/722
[8] памяти: http://www.braintools.ru/article/4140
[9] интеллекта: http://www.braintools.ru/article/7605
[10] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=MICROSOFT_RELEASED_AN_LLM_BACKDOOR_SCANNER_AND_NAMED_3_SIGNS_OF_INFECTION_IN_AN_OPEN_AI_MODEL
[11] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[12] Источник: https://habr.com/ru/companies/bothub/news/995786/?utm_source=habrahabr&utm_medium=rss&utm_campaign=995786
Нажмите здесь для печати.