backdoor.

Когда языковые модели обращаются против вас: исследование бэкдоров в LLM

Представьте, что вы управляете колл-центром и решили внедрить открытое LLM (большую языковую модель) для автоматизации общения. Всё работает отлично — до того момента, когда мошенник шепчет странную фразу, и внезапно модель начинает отправлять данные ваших клиентов на вредоносный сервер. Звучит как фантастика? Не совсем.Добро пожаловать в мир нейронных бэкдоров.Зачем я специально создал вредоносную модельВ этом посте я представляю специальную версию модели Mistral-7B-Instruct-v0.1, которую я дообучил — не чтобы сделать её лучше, а чтобы намеренно внедрить уязвимость. Целью не

продолжить чтение

Rambler's Top100