highload.

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели

продолжить чтение

Оставлено в

Оркестрация чатов LLM моделей через Redis

Исходный код, разобранный в данной статье, опубликован в этом репозитории При работе с языковыми моделями частым явлением являются галлюцинации - когда модель даёт неверных вывод. Это связано с издержками математической модели, которая пораждает важные нюансы, разобранные в данной статье

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

highload.

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

Оркестрация чатов LLM моделей через Redis

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

highload.

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

Оркестрация чатов LLM моделей через Redis