backdoor.

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM

Представьте, что вы управляете колл-центром и решили внедрить открытое LLM (большую языковую модель) для автоматизации общения. Всё работает отлично — до того момента, когда мошенник шепчет странную фразу, и внезапно модель начинает отправлять данные ваших клиентов на вредоносный сервер. Звучит как фантастика? Не совсем.Добро пожаловать в мир нейронных бэкдоров.Зачем я специально создал вредоносную модельВ этом посте я представляю специальную версию модели Mistral-7B-Instruct-v0.1, которую я дообучил — не чтобы сделать её лучше, а чтобы намеренно внедрить уязвимость. Целью не

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

backdoor.

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

backdoor.

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM