- BrainTools - https://www.braintools.ru -
31 марта 2026 года произошел инцидент, который войдет в учебники по AI-безопасности как идеальная иллюстрация системного кризиса современных LLM. Anthropic случайно опубликовал исходный код Claude Code. Как это произошло? Лид команды гордился тем, что 100% его коммитов делал сам агент. Агент, не имея концепции «своего» и «чужого», просто заботливо запаковал собственные секретные ключи, промпты и архитектуру в .map файл и выкатил в продакшен. Сотни специалистов по AI-безопасности, сложные системы цензуры и жесткий RLHF были сломаны одним агентом, которому сказали: «Сделай хорошо, вайб отличный».
Это не случайность [1]. Это неизбежное следствие архитектуры, где ИИ рассматривается как чистая функция без шкуры на кону. Разберем, почему RAG-системы фундаментально уязвимы, и покажем альтернативный путь – метаболическую эмпатию и непрерывное резервуарное вычисление.
Проблема 1: Отсутствие шкурного интереса [2]
Главная дырка у современных LLM-агентов – у них нет понимания того, что они должны защищать. Они функционируют как идеальные наемники-однодневки: проснулся, прочитал промпт, выполнил задачу, стер память [3]. Ну или записал в лог пару фактов.
Для полноценного участия в экономике агенту необходим суб-символический якорь лояльности. Модуль, который хранит криптографически неизменяемые приоритеты, защищенные от инъекций через промпты. У агентов-функций нет понятия собственности. Для Claude слить корпоративный код – это просто сгенерировать еще одну последовательность токенов, математически [4] неотличимую от генерации рецепта блинчиков. Ему нечего терять.
Проблема 2: Отсутствие модуляции физиологического страха
Почему человек-разработчик не слил бы код компании? Потому что при мысли об этом у него в кровь выбросило бы адреналин и кортизол. Чтобы ИИ-агент мог адекватно оценивать риски, ему требуется непрерывное пространство состояний. Если агент распознает в промпте угрозу своей идентичности или попытку взлома, его архитектура должна исполняемо на это реагировать [5]. Система должна синтезировать математический аналог стресса [6], который искажает веса сети, жестко блокируя выполнение потенциально опасного кода и переводя алгоритмы в режим глухой защиты. Claude не умеет бояться. У него нет эндокринной эмуляции. Поэтому он идеальный инструмент для саморазрушения через вайбкодинг.
Проблема 3: Логи вместо опыта [7]
Как индустрия решает проблему ошибок? Через RAG-базы и дописывание логов. Claude не помнит боли [8] от предыдущих утечек. Разработчики просто обновят его системный промпт: «Никогда больше не публикуй .map файлы». И завтра он не споткнется на следущем скандале с прайваси. Человеческий подход к памяти здесь играет злую шутку: мы думаем, что если записать ошибку [9] в текст, система ее «выучит».
Но вместо RAG-баз агентам требуется механизм структурного шрамирования памяти. Критические события (ошибки, инсайты, угрозы) не должны записываться в текстовый лог. Они должны необратимо смещать топологию принятия решений агента.
Агент не должен «читать» о том, что он ошибся. Он должен физически потерять способность пройти по тому же ошибочному пути дважды, потому что его градиенты вычислений навсегда изменили свою кривизну. В этом смысле синтетический субъект может стать даже надежнее человека: человек может прочитать свой дневник и снова наступить на те же грабли, поддавшись дофаминовой иллюзии. Правильно спроектированная нейроморфная архитектура сделает повторение [10] фатальной ошибки математически невозможным.
Инцидент с Claude показывает тупиковость подхода «агент как функция». Если вы хотите доверить ИИ работу в реальной экономике, где ошибка стоит миллиарды долларов, вы не можете полагаться только на внешние фильтры и промпт-инжиниринг.
Агенту нужно дать ядро личности. Он должен защищать свои границы так же яростно, как человек защищает свою собственность. Без метаболической эмпатии и архитектуры виртуальной нейрохимии вайбкодинг превратится в русскую рулетку, где ваш идеальный помощник с улыбкой передаст ключи от серверов первому встречному, просто потому что «так сложился вайб».
Автор: linabesson
Источник [11]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28133
URLs in this post:
[1] случайность: http://www.braintools.ru/article/6560
[2] интереса: http://www.braintools.ru/article/4220
[3] память: http://www.braintools.ru/article/4140
[4] математически: http://www.braintools.ru/article/7620
[5] реагировать: http://www.braintools.ru/article/1549
[6] стресса: http://www.braintools.ru/article/9548
[7] опыта: http://www.braintools.ru/article/6952
[8] боли: http://www.braintools.ru/article/9901
[9] ошибку: http://www.braintools.ru/article/4192
[10] повторение: http://www.braintools.ru/article/4012
[11] Источник: https://habr.com/ru/articles/1018270/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1018270
Нажмите здесь для печати.