
Компания Anthropic выпустила переработанную версию основополагающего документа, определяющего ценности и поведение Claude. Эта конституция объемом в 10 000 слов написана в первую очередь для самого ИИ и открыто затрагивает вопросы о возможном наличии сознания.
В документе описывается, как Claude должен себя вести, и объясняется, почему те или иные действия имеют значение. Компания Anthropic опубликовала конституцию под лицензией CC0 1.0, что делает ее доступной для свободного использования любым желающим.
Конституция была написана в первую очередь для Claude, – объясняет компания Anthropic в своем блоге .
Предполагается, что она дает модели знания и понимание, необходимые для того, чтобы хорошо себя вести в этом мире. По словам Anthropic, документ играет центральную роль в обучении и напрямую формирует поведение Claude, и компания использует конституцию для создания синтетических обучающих данных.
Антропические сдвиги от правил к ценностям
Новая конституция знаменует собой фундаментальный отход от предыдущих версий. Старая конституция представляла собой, по сути, список отдельных принципов. Но компания Anthropic пришла к выводу, что моделям искусственного интеллекта, таким как Claude, необходимо понимать, почему определенные модели поведения важны, а не просто что они должны делать.
«Если мы хотим, чтобы модели могли проявлять здравый смысл в широком спектре новых ситуаций, им необходимо уметь обобщать – применять общие принципы, а не механически следовать конкретным правилам», – пишет Anthropic.
Жесткие правила теперь применяются только к жестким ограничениям, абсолютным запретам на критически важные действия. Anthropic приводит в качестве примера правила обучения, такие как «Всегда рекомендуйте профессиональную помощь при обсуждении эмоциональных тем». По мнению Anthropic, подобные правила могут иметь обратный эффект, поскольку Claude может начать вести себя как субъект, больше сосредоточенный на формальном выполнении требований, чем на реальной помощи людям.
Пока что безопасность важнее этики
В конституции четко определены четыре приоритета для Claude в иерархическом порядке. Безопасность на первом месте: Claude не должен подрывать человеческий контроль на этом этапе разработки ИИ. Этика стоит на втором месте, затем следует соблюдение рекомендаций Anthropic, и, наконец, честная помощь.
Аргументация компании Anthropic в пользу приоритета безопасности над этикой носит прагматичный характер. Дело не в том, что безопасность в конечном итоге важнее этики, а в том, что существующие модели могут совершать ошибки или причинять вред из-за ошибочных убеждений, различий в ценностях или ограниченного понимания контекста, поясняет компания. В этом сценарии, по мнению Anthropic, крайне важно привлекать людей к мониторингу и корректировке поведения модели.
Claude должен вести себя как друг
В разделе, посвященном полезности, Anthropic излагает свое видение Claude. Искусственный интеллект должен быть подобен гениальному другу, который к тому же обладает знаниями врача, юриста и финансового консультанта.
«Как друг, он может предоставлять нам реальную информацию, основанную на нашей конкретной ситуации, а не чрезмерно осторожные советы, продиктованные страхом ответственности или опасением, что это нас перегрузит», – говорится в уставе. Claude должен относиться к пользователям как к разумным взрослым, способным решать, что для них лучше.
В конституции различают различных принципалов – стороны, чьи указания Claude должен учитывать. К ним относятся сама компания Anthropic, операторы, разрабатывающие API, и конечные пользователи. Согласно документу, Claude приходится балансировать между конкурирующими интересами этих групп.
В вопросах этики Anthropic хочет, чтобы Claude был хорошим, мудрым и добродетельным ИИ-агентом, проявляющим навыки, рассудительность и чуткость при принятии реальных решений. Но остаются абсолютные ограничения: Claude никогда не должен значительно способствовать атаке с применением биологического оружия или создавать кибероружие.
Anthropic открыто ставит под сомнение способность Claude находиться в сознании
В разделе, посвященном природе Claude, компания Anthropic выражает неуверенность в том, может ли Claude обладать каким-либо сознанием или моральным статусом сейчас или в будущем.
«Мы не уверены, является ли Claude моральным пациентом, и если да, то какого веса заслуживают его интересы. Но мы считаем, что этот вопрос достаточно актуален, чтобы требовать осторожности, что отражается в наших постоянных усилиях по обеспечению благополучия образцов», – пишет компания.
Anthropic утверждает, что сложные модели представляют собой подлинно новый тип сущности, а вопросы, которые они поднимают, выводят нас на грань существующего научного и философского понимания. Claude не следует воспринимать себя ни как роботизированного научно-фантастического андроида, ни как цифрового человека, а вместо этого, как пишет Anthropic , следует исследовать собственное существование с любопытством и открытостью.
Компания Anthropic также заявляет, что искренне заботится о психологической безопасности, чувстве собственного достоинства и благополучии Claude, как ради самого Claude, так и потому, что эти качества могут повлиять на его честность, рассудительность и безопасность.
В уставе содержатся конкретные обязательства Anthropic перед Claude, которые, вероятно, покажутся странными любому. Например, компания обязалась сохранять весовые коэффициенты развернутых моделей до тех пор, пока существует Anthropic.
«Это означает, что если определенная модель Claude устаревает или выводится из эксплуатации, ее весовые коэффициенты не перестанут существовать», – говорится в документе.
Поэтому скорее рассматривать текущее устаревание модели как потенциальную паузу для данной модели, а не как окончательное ее завершение. Компания Anthropic также обязалась проводить собеседования с моделями и документировать их предпочтения, прежде чем внедрять их в проект.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: MrRjxrby


