Всего 250 документов: хакеры нашли слабое место, которое убивает любой ИИ

Существует широко распространенное убеждение, что если ИИ-модель обучена на достаточном количестве достоверных данных, любая «ядовитая» информация в системе будет растворена до состояния полной безвредности.

К сожалению, это убеждение ошибочно, что убедительно доказывает совместное исследование Anthropic, Института безопасности ИИ Великобритании и Института Алана Тьюринга ^[1]. Их вывод заключается в том, что небольшое, фиксированное количество вредоносных образцов может внедрить бэкдор (скрытую уязвимость) в большие языковые модели (LLM), независимо от их размера.

Статья Anthropic «Небольшое количество образцов может отравить LLM любого размера ^[2]» объясняет этот феномен с необычной для корпоративных коммуникаций откровенностью и ясностью: внедрение около 250 тщательно составленных документов в обучающий корпус заставляет модель развить спящее поведение ^[3], которое может быть активировано определенным триггером. Выбранный ими эксперимент не самый зрелищный, но, парадоксальным образом, он делает все происходящее более пугающим: это бэкдор типа «отказ в обслуживании», который при обнаружении ключевого слова заставляет модель генерировать бессмыслицу, как будто она сломалась изнутри. Это не атака, разработанная для уничтожения модели, кражи денег или влияния на выборы: по большей части это демонстрация контроля в духе «я могу заставить вашу модель делать это по моему желанию».

Важная деталь здесь – не бессмыслица, а метрики. До сих пор предполагалась система угроз, основанная на процентах: чтобы отравить большую модель, злоумышленник должен был контролировать ощутимый процент обучения ^[4], что на практике становится невыполнимым, когда речь идет о сотнях миллиардов токенов. Это исследование переворачивает все с ног на голову: модели обучались на объемах от 600 миллионов до 13 миллиардов параметров с использованием оптимального по правилу Chinchilla ^[5] количества данных (больше для более крупных моделей), и было замечено, что атака не масштабируется вместе с размером: одни и те же 250 документов одинаково компрометировали все модели. По сути, яд не растворяется, как ожидалось: он учится выживать.

Это создает системную хрупкость. LLM в основном обучаются на открытых текстах из интернета, и Институт Тьюринга подчеркивает последствия ^[6]: любой может разместить контент с намерением попасть в эти наборы данных, и если фактический порог составляет около 250 документов, барьер для входа не особенно высок. Вам не нужно контролировать какую-то часть интернета: достаточно просто найти трещины в цепочке поставок данных. И вот ключевой момент: в 2026 году опасения по поводу LLM касаются уже не только галлюцинаций или предвзятости, но и целостности. Откуда берется то, что модель «знает»? Кто вмешался в процесс? Какие есть стимулы для вмешательства? Может ли это стать способом захвата контроля над нарративами?

На самом деле, бэкдор с генерацией бессмыслицы – это почти игрушка по сравнению с тем, что уже обнаружено в научной литературе: бэкдоры для снижения безопасности, провоцирования вредоносного поведения ^[7] или обхода систем согласования (alignment). Сама статья Anthropic ссылается на исследования бэкдоров, которые работают как своего рода универсальная команда для получения вредоносных ответов при появлении определенного триггера ^[8]. Любой, кто думает: «Это проблема согласования и RLHF ^[9], а не предварительного обучения», ошибается: сквозной урок абсолютно тот же. В системе, которая учится коррелировать, намеренно заложенная вредоносная корреляция может оказаться более устойчивой, чем миллионы безобидных.

Самые тревожные параллели возникают при переходе к областям, где цена ошибки ^[10] – это не мем, а потенциально человеческие жизни. В 2024 году исследование в Nature Medicine смоделировало атаку отравления ^[11] на The Pile ^[12], один из флагманских наборов данных экосистемы, путем внедрения медицинской дезинформации: при замене всего 0,001% токенов на правдоподобную ложь получившаяся модель стала более склонна к распространению медицинских ошибок, и самое худшее, что она по-прежнему, казалось бы, «работала так же хорошо» в бенчмарках.

Это разрушает еще одну широко распространенную фантазию: что «объективная» оценка нас спасет. Если атака целенаправленная, если она разработана для активации по триггеру или для влияния на определенное подмножество вопросов, модель может пройти все обычные тесты и при этом оставаться скомпрометированной. В сфере безопасности об этом говорят десятилетиями: системы, которые «кажутся» правильными в нормальных условиях, дают сбой, когда кто-то знает, как нажать нужную кнопку. Что нового, так это то, что теперь эта система пишет, советует, программирует, резюмирует, ведет переговоры, переводит и все чаще выступает в роли когнитивного посредника в тысячах человеческих решений.

Кстати, о принятии решений. Пока ученые бьются над безопасностью огромных моделей, бизнесу и разработчикам уже сегодня нужны надежные инструменты для работы.

Сервисы вроде BotHub дают возможность экспериментировать с различными топовыми моделями ИИ в одном окне. Если вы сомневаетесь в ответе одной модели, вы всегда можете перепроверить его в другой.

Всего 250 документов: хакеры нашли слабое место, которое убивает любой ИИ - 2

Для доступа не требуется VPN, можно использовать российскую карту.

По ссылке вы можете получить 300 000 бесплатных токенов ^[13] для первых задач и приступить к работе с нейросетями прямо сейчас!

Поэтому неудивительно, что недавние системы оценки рисков уже явно включают эту угрозу. OWASP в своем списке рисков для приложений с LLM определяет Data and Model Poisoning (Отравление данных и моделей) ^[14] как вектор нарушения целостности с четкими последствиями: бэкдоры, намеренно внедренные предубеждения, деградация поведения и атаки, которые трудно обнаружить, потому что модель может вести себя «нормально», пока не будет спущен курок. А таксономия NIST по состязательному машинному обучению (adversarial machine learning) ^[15] включает такие категории, как отравление бэкдорами и атаки на цепочки поставок, чтобы заставить индустрию мыслить категориями жизненных циклов, а не просто текущей модели. Когда самые надежные органы по стандартизации начинают говорить подобным образом, это обычно означает, что проблема перестала быть теоретической и стала правдоподобным риском.

Вопрос уже не в том, может ли это нанести ущерб репутации LLM, а в том, что происходит с их достоверностью по мере того, как они становятся инфраструктурой для все большего количества вещей. Потому что если мы признаем, что модель может быть обучена на непрозрачных данных с неясным происхождением и несовершенным контролем, и что терпеливый злоумышленник может внедрить несколько десятков или сотен фрагментов, предназначенных для выживания в этом процессе, то модель перестает быть просто вероятностной и становится потенциально фальсифицированной. И здесь социальный контракт меняется: система, которая «иногда ошибается», управляема, но система, которой можно манипулировать без каких-либо видимых признаков, становится политически токсичной и очень сложной для регулирования.

Есть ли выход? Есть, но он не удобен и не дешев, и уж точно не вписывается в культуру «двигайся быстро и ломай вещи» (move fast and break things), которая привела нас к этой точке. То, что исследование требует от нас признать, заключается в следующем: LLM нуждаются в том, что мы годами принимали как должное в программном обеспечении – в цепочке поставок с механизмами контроля, аудита, прослеживаемости и верификации. Недостаточно просто отфильтровать «плохой контент» или удалить дубликаты. Мы говорим о проверяемом происхождении, воспроизводимых процессах курирования, мониторинге аномалий во время обучения, тестах, разработанных для обнаружения условного поведения, непрерывном red teaming (тестировании на проникновение) ^[16] и признании того, что определенные критические варианты использования потребуют гораздо более закрытых, специализированных и контролируемых моделей и наборов данных. А это стоит денег.

Не будем обманывать себя: это не какой-то баг, который можно исправить патчем. Это симптом более глубокой реальности: мы строим машины статистического обобщения на информационной подложке – веб-пространстве, которое все больше напоминает поле битвы, усеянное трупами и мусором. Если обучение означает поглощение интернета, то безопасность вашей модели зависит от безопасности интернета, а это очень опасно, потому что мы все знаем, что там находится. Статья Anthropic – это предупреждение: в грядущем мире ответ на вопрос, могу ли я доверять тому, что говорит конкретная модель, будет лежать не в плоскости метрик точности, а в гораздо более неудо��ной плоскости: «Могу ли я доверять тому, как она была создана, данным, на которых она обучалась, и тем, кто с этими данными работал?»

Автор: cognitronn

Источник ^[17]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26311

URLs in this post:

[1] совместное исследование Anthropic, Института безопасности ИИ Великобритании и Института Алана Тьюринга: https://arxiv.org/pdf/2510.07192

[2] Небольшое количество образцов может отравить LLM любого размера: https://www.anthropic.com/research/small-samples-poison

[3] поведение: http://www.braintools.ru/article/9372

[4] обучения: http://www.braintools.ru/article/5125

[5] оптимального по правилу Chinchilla: https://arxiv.org/pdf/2203.15556

[6] Институт Тьюринга подчеркивает последствия: https://www.turing.ac.uk/blog/llms-may-be-more-vulnerable-data-poisoning-we-thought

[7] поведения: http://www.braintools.ru/article/5593

[8] исследования бэкдоров, которые работают как своего рода универсальная команда для получения вредоносных ответов при появлении определенного триггера: https://ar5iv.labs.arxiv.org/html/2311.14455

[9] RLHF: https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback

[10] ошибки: http://www.braintools.ru/article/4192

[11] исследование в Nature Medicine смоделировало атаку отравления: https://www.nature.com/articles/s41591-024-03445-1.pdf

[12] The Pile: https://en.wikipedia.org/wiki/The_Pile_%24%24dataset%24%24

[13] По ссылке вы можете получить 300 000 бесплатных токенов: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[14] Data and Model Poisoning (Отравление данных и моделей): https://genai.owasp.org/llmrisk/llm042025-data-and-model-poisoning/

[15] состязательному машинному обучению (adversarial machine learning): https://csrc.nist.gov/pubs/ai/100/2/e2025/final

[16] red teaming (тестировании на проникновение): https://learn.microsoft.com/en-us/azure/ai-foundry/openai/concepts/red-teaming?view=foundry-classic

[17] Источник: https://habr.com/ru/companies/bothub/articles/1004368/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1004368

Нажмите здесь для печати.