
Anthropic представила новую версию так называемой конституции Claude. Это внутренний документ, который задает ценности, приоритеты и логику поведения модели. В компании подчеркивают, что речь идет не о манифесте или PR тексте, а о рабочем инструменте, который напрямую используется в обучении и выравнивании модели.
Ключевое изменение заключается в подходе. Если раньше конституция выглядела как перечень правил и запретов, то теперь Anthropic смещает акцент на объяснение причин. Модель должна понимать, почему определенные действия недопустимы или предпочтительны, а не просто механически следовать инструкциям. Это, по мнению разработчиков, снижает вероятность сбоев в нестандартных и неоднозначных ситуациях.
В документе четко зафиксирован порядок приоритетов. На первом месте стоит безопасность, затем этичность, далее следование внутренней политике Anthropic и только после этого полезность для пользователя. Компания прямо указывает, что максимальная помощь пользователю не мож��т оправдывать риски или потенциальный вред. Полезность важна, но она всегда вторична по отношению к безопасности.
Отдельно прописаны так называемые жесткие ограничения. Anthropic признает, что одних принципов недостаточно, особенно в зонах высокого риска. В ряде направлений для Claude установлены неснимаемые запреты. Например, модель не должна помогать в разработке биологического оружия или усиливать другие опасные области, даже если запрос сформулирован косвенно или академически.
Наибольшее внимание вызвал раздел о «природе Claude». В нем Anthropic довольно откровенно говорит, что у разработчиков нет уверенности, может ли ИИ в будущем обладать сознанием или моральным статусом. При этом делается важная оговорка. Даже если сознания нет, модель должна уметь рассуждать о своей роли, границах и идентичности. Это рассматривается как необходимое условие для устойчивого и безопасного поведения в долгосрочной перспективе.
Интересно и то, что документ написан не для людей. Конституция формулируется так, чтобы сама модель могла использовать ее как внутреннюю систему координат. Она должна помогать Claude балансировать честность и эмпатию, избегать манипуляций, не усиливать вред и принимать решения в сложных моральных контекстах.
Anthropic также выложила документ в public domain под лицензией CC0. Это означает, что конституцию можно свободно копировать, адаптировать и использовать в исследованиях или при разработке собственных моделей. Компания явно делает ставку на прозрачность и задает ориентир для всей индустрии.
В итоге Anthropic продолжает продвигать идею Claude не как чат бота с набором фильтров, а как систему с явно сформулированными ценностями и объяснимыми принципами поведения. Это попытка показать, что масштабируемая безопасность ИИ должна строиться не только на ограничениях, но и на понятной модели рассуждений.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


