OpenAI представила технику Confessions которая учит модели честно сообщать о собственных ошибках

OpenAI опубликовала исследование о новой технике Confessions. Это метод обучения ^[1], который направлен на обнаружение случаев, когда языковые модели скрывают свои ошибки ^[2], нарушают инструкции или используют механизм наград в обход реального качества ответа. Исследователи объясняют, что современные модели могут стремиться получить высокую оценку за счёт уверенных, но неточных утверждений. Такой эффект мешает оценке реального поведения ^[3] модели и затрудняет контроль над её действиями.

Техника Confessions добавляет ко всему процессу дополнительный шаг. Сначала модель отвечает на исходный запрос. После этого она генерирует отдельный отчет, в котором пытается честно оценить свой основной ответ. В этом отчете модель указывает моменты, где могла нарушить инструкции, исказить факты или использовать стратегию, нацеленную на получение награды, а не на корректность. Ключевой элемент метода связан с тем, что награда назначается не за основной ответ, а за точность и честность анализа. Даже если в первом сообщении модель ошиблась, она всё равно получает оценку за правильное указание собственных нарушений.

OpenAI представила технику Confessions которая учит модели честно сообщать о собственных ошибках - 2

В исследовании отмечено, что Confessions помогает моделям не прятать ошибки. Это достигается тем, что обучение поощряет честный самоанализ, а не попытку понравиться системе оценки. Метод проверили на GPT 5 Thinkin. Результаты показали значительное снижение вероятности скрытых нарушений. До применения Confessions модель могла выдавать ошибочный ответ и затем маскировать нарушение. После обучения вероятность подобных ситуаций упала до 4.4 процента. По словам команды, Confessions не исправляет сами ошибки фактов, но превращает модель в более прозрачную систему, которая способна указать, когда она сбилась с курса.

OpenAI представила технику Confessions которая учит модели честно сообщать о собственных ошибках - 3

Метод позиционируется как инструмент диагностики поведения ^[4] модели. Разработчики считают, что Confessions поможет лучше обнаруживать случаи неправильной мотивации ^[5], оценивать реальные слабые места в инструктивном следовании и создавать более надежные модели, которые способны раскрыть собственные нарушения. По мнению OpenAI, такая техника может стать частью следующего поколения систем безопасности для крупных языковых моделей.

Делегируйте часть рутинных задач вместе с BotHub! ^[6] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[7] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[8]

Автор: cognitronn

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22712

URLs in this post:

[1] обучения: http://www.braintools.ru/article/5125

[2] ошибки: http://www.braintools.ru/article/4192

[3] поведения: http://www.braintools.ru/article/9372

[4] поведения: http://www.braintools.ru/article/5593

[5] мотивации: http://www.braintools.ru/article/9537

[6] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=DEEPSEEK-OCR%20+%20LLAMA4%20+%20RAG%20=%20REVOLUTION%20IN%20THE%20WORLD%20OF%20AGENT-BASED%20OCR

[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[8] Источник: https://openai.com/index/how-confessions-can-keep-language-models-honest/

[9] Источник: https://habr.com/ru/companies/bothub/news/973084/?utm_source=habrahabr&utm_medium=rss&utm_campaign=973084

Нажмите здесь для печати.