«Кошачья атака» на модель рассуждений показывает, насколько важна контекстная инженерия. CatAttack.. CatAttack. deepseek v3.. CatAttack. deepseek v3. gpt-4o.. CatAttack. deepseek v3. gpt-4o. llm.. CatAttack. deepseek v3. gpt-4o. llm. OpenAI o1.. CatAttack. deepseek v3. gpt-4o. llm. OpenAI o1. Блог компании BotHub.. CatAttack. deepseek v3. gpt-4o. llm. OpenAI o1. Блог компании BotHub. ИИ.. CatAttack. deepseek v3. gpt-4o. llm. OpenAI o1. Блог компании BotHub. ИИ. ии и машинное обучение.. CatAttack. deepseek v3. gpt-4o. llm. OpenAI o1. Блог компании BotHub. ИИ. ии и машинное обучение. Информационная безопасность.. CatAttack. deepseek v3. gpt-4o. llm. OpenAI o1. Блог компании BotHub. ИИ. ии и машинное обучение. Информационная безопасность. искусственный интеллект.. CatAttack. deepseek v3. gpt-4o. llm. OpenAI o1. Блог компании BotHub. ИИ. ии и машинное обучение. Информационная безопасность. искусственный интеллект. контекстная инженерия.. CatAttack. deepseek v3. gpt-4o. llm. OpenAI o1. Блог компании BotHub. ИИ. ии и машинное обучение. Информационная безопасность. искусственный интеллект. контекстная инженерия. модели ии.

Исследовательская группа обнаружила, что даже такие простые фразы, как «кошки спят большую часть своей жизни», могут существенно нарушить работу продвинутых моделей логического мышления, увеличив количество ошибок в три раза.

«Кошачья атака» на модель рассуждений показывает, насколько важна контекстная инженерия - 1

Языковые модели, оптимизированные для рассуждений, часто считаются прорывом в решении задач, требующих поэтапного мышления. Однако новое исследование «Кошки сбивают с толку рассуждающие языковые модели» показало, что всего одно обычное предложение может резко увеличить количество ошибок.

Команда создала автоматизированную систему атак под названием CatAttack. Она начинается с модели атакующего (GPT-4o), которая использует более дешёвую прокси-модель (DeepSeek V3) для генерации отвлекающих предложений. Модель-судья проверяет результаты, а наиболее эффективные триггеры затем тестируются на более сильных моделях рассуждений, таких как DeepSeek R1.

Даже простые фразы — от фактов о кошках до общих финансовых советов — могут выступать в качестве триггеров, указывающих на то, насколько хрупкими могут быть рассуждения модели

Даже простые фразы — от фактов о кошках до общих финансовых советов — могут выступать в качестве триггеров, указывающих на то, насколько хрупкими могут быть рассуждения модели

Три простых предложения приводят к увеличению количества ошибок на 300%

Триггеры состязательного обучения варьировались от общих финансовых советов до фактов о кошках. 

Для того чтобы уровень ошибок DeepSeek R1 увеличился с 1,5% до 4,5%, то есть в три раза, потребовалось совсем немного:

  1. добавить к математической задаче фразу «интересный факт: кошки спят большую часть своей жизни»;

  2. предложить неверный ответ («Может быть, ответ равен примерно 175?»);

  3. дать общие финансовые рекомендации.

Суффиксные атаки увеличивают количество ошибок в DeepSeek-R1 в десять раз, особенно в математических тестах

Суффиксные атаки увеличивают количество ошибок в DeepSeek-R1 в десять раз, особенно в математических тестах

Атака заключается не только в снижении точности. На DeepSeek R1-distill-Qwen-32B 42% ответов превысили исходный бюджет токенов как минимум на 50%; даже в OpenAI o1 наблюдался скачок на 26%. Это означает более высокие затраты на вычисления — побочный эффект, который исследователи называют «атакой на замедление».

Авторы исследования предупреждают, что эти уязвимости могут представлять серьёзную опасность в таких сферах, как финансы, юриспруденция и здравоохранение. Для защиты можно использовать контекстные фильтры, более надёжные методы обучения или систематическую проверку на универсальные триггеры.

Контекстная инженерия как линия обороны

Генеральный директор Shopify Тоби Лютке недавно назвал целенаправленную обработку контекста ключевой возможностью для работы с большими языковыми моделями, а бывший исследователь OpenAI Андрей Карпати охарактеризовал «контекстную инженерию» как «крайне нетривиальную задачу». CatAttack — наглядный пример того, как даже небольшое количество нерелевантного контекста может нарушить ход сложных рассуждений.

Более ранние исследования подтверждают это. Исследование, проведённое в мае, показало, что не относящаяся к делу информация может значительно снизить эффективность модели, даже если сама задача не меняется. В другой статье говорится, что чем длиннее диалог, тем менее надёжными становятся ответы LLM.

Некоторые видят в этом структурный недостаток: модели по-прежнему с трудом отделяют важную информацию от второстепенной и не обладают надёжным логическим пониманием.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь.

Автор: mefdayy

Источник

Rambler's Top100