
OpenAI опубликовала исследование о новой технике Confessions. Это метод обучения, который направлен на обнаружение случаев, когда языковые модели скрывают свои ошибки, нарушают инструкции или используют механизм наград в обход реального качества ответа. Исследователи объясняют, что современные модели могут стремиться получить высокую оценку за счёт уверенных, но неточных утверждений. Такой эффект мешает оценке реального поведения модели и затрудняет контроль над её действиями.
Техника Confessions добавляет ко всему процессу дополнительный шаг. Сначала модель отвечает на исходный запрос. После этого она генерирует отдельный отчет, в котором пытается честно оценить свой основной ответ. В этом отчете модель указывает моменты, где могла нарушить инструкции, исказить факты или использовать стратегию, нацеленную на получение награды, а не на корректность. Ключевой элемент метода связан с тем, что награда назначается не за основной ответ, а за точность и честность анализа. Даже если в первом сообщении модель ошиблась, она всё равно получает оценку за правильное указание собственных нарушений.

В исследовании отмечено, что Confessions помогает моделям не прятать ошибки. Это достигается тем, что обучение поощряет честный самоанализ, а не попытку понравиться системе оценки. Метод проверили на GPT 5 Thinkin. Результаты показали значительное снижение вероятности скрытых нарушений. До применения Confessions модель могла выдавать ошибочный ответ и затем маскировать нарушение. После обучения вероятность подобных ситуаций упала до 4.4 процента. По словам команды, Confessions не исправляет сами ошибки фактов, но превращает модель в более прозрачную систему, которая способна указать, когда она сбилась с курса.

Метод позиционируется как инструмент диагностики поведения модели. Разработчики считают, что Confessions поможет лучше обнаруживать случаи неправильной мотивации, оценивать реальные слабые места в инструктивном следовании и создавать более надежные модели, которые способны раскрыть собственные нарушения. По мнению OpenAI, такая техника может стать частью следующего поколения систем безопасности для крупных языковых моделей.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


