Anthropic опубликовала обновленную конституцию Claude и показала, как именно модель учат принимать решения

Anthropic представила новую версию так называемой конституции ^[1]Claude. Это внутренний документ, который задает ценности, приоритеты и логику ^[2] поведения ^[3] модели. В компании подчеркивают, что речь идет не о манифесте или PR тексте, а о рабочем инструменте, который напрямую используется в обучении ^[4] и выравнивании модели.

Ключевое изменение заключается в подходе. Если раньше конституция выглядела как перечень правил и запретов, то теперь Anthropic смещает акцент на объяснение причин. Модель должна понимать, почему определенные действия недопустимы или предпочтительны, а не просто механически следовать инструкциям. Это, по мнению разработчиков, снижает вероятность сбоев в нестандартных и неоднозначных ситуациях.

В документе четко зафиксирован порядок приоритетов. На первом месте стоит безопасность, затем этичность, далее следование внутренней политике Anthropic и только после этого полезность для пользователя. Компания прямо указывает, что максимальная помощь пользователю не мож��т оправдывать риски или потенциальный вред. Полезность важна, но она всегда вторична по отношению к безопасности.

Отдельно прописаны так называемые жесткие ограничения. Anthropic признает, что одних принципов недостаточно, особенно в зонах высокого риска. В ряде направлений для Claude установлены неснимаемые запреты. Например, модель не должна помогать в разработке биологического оружия или усиливать другие опасные области, даже если запрос сформулирован косвенно или академически.

Наибольшее внимание ^[5] вызвал раздел о «природе Claude». В нем Anthropic довольно откровенно говорит, что у разработчиков нет уверенности, может ли ИИ в будущем обладать сознанием или моральным статусом. При этом делается важная оговорка. Даже если сознания нет, модель должна уметь рассуждать о своей роли, границах и идентичности. Это рассматривается как необходимое условие для устойчивого и безопасного поведения ^[6] в долгосрочной перспективе.

Интересно и то, что документ написан не для людей. Конституция формулируется так, чтобы сама модель могла использовать ее как внутреннюю систему координат. Она должна помогать Claude балансировать честность и эмпатию, избегать манипуляций, не усиливать вред и принимать решения в сложных моральных контекстах.

Anthropic также выложила документ в public domain под лицензией CC0. Это означает, что конституцию можно свободно копировать, адаптировать и использовать в исследованиях или при разработке собственных моделей. Компания явно делает ставку на прозрачность и задает ориентир для всей индустрии.

В итоге Anthropic продолжает продвигать идею Claude не как чат бота с набором фильтров, а как систему с явно сформулированными ценностями и объяснимыми принципами поведения. Это попытка показать, что масштабируемая безопасность ИИ должна строиться не только на ограничениях, но и на понятной модели рассуждений.

Делегируйте часть рутинных задач вместе с BotHub! ^[7] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[8] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[9]

Автор: cognitronn

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24577

URLs in this post:

[1] конституции : https://www.anthropic.com/constitution

[2] логику: http://www.braintools.ru/article/7640

[3] поведения: http://www.braintools.ru/article/9372

[4] обучении: http://www.braintools.ru/article/5125

[5] внимание: http://www.braintools.ru/article/7595

[6] поведения: http://www.braintools.ru/article/5593

[7] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=

[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[9] Источник: https://www.anthropic.com/news/claude-new-constitution

[10] Источник: https://habr.com/ru/companies/bothub/news/987642/?utm_source=habrahabr&utm_medium=rss&utm_campaign=987642

Нажмите здесь для печати.