- BrainTools - https://www.braintools.ru -

OpenAI опубликовала исследование о новой технике Confessions. Это метод обучения [1], который направлен на обнаружение случаев, когда языковые модели скрывают свои ошибки [2], нарушают инструкции или используют механизм наград в обход реального качества ответа. Исследователи объясняют, что современные модели могут стремиться получить высокую оценку за счёт уверенных, но неточных утверждений. Такой эффект мешает оценке реального поведения [3] модели и затрудняет контроль над её действиями.
Техника Confessions добавляет ко всему процессу дополнительный шаг. Сначала модель отвечает на исходный запрос. После этого она генерирует отдельный отчет, в котором пытается честно оценить свой основной ответ. В этом отчете модель указывает моменты, где могла нарушить инструкции, исказить факты или использовать стратегию, нацеленную на получение награды, а не на корректность. Ключевой элемент метода связан с тем, что награда назначается не за основной ответ, а за точность и честность анализа. Даже если в первом сообщении модель ошиблась, она всё равно получает оценку за правильное указание собственных нарушений.

В исследовании отмечено, что Confessions помогает моделям не прятать ошибки. Это достигается тем, что обучение поощряет честный самоанализ, а не попытку понравиться системе оценки. Метод проверили на GPT 5 Thinkin. Результаты показали значительное снижение вероятности скрытых нарушений. До применения Confessions модель могла выдавать ошибочный ответ и затем маскировать нарушение. После обучения вероятность подобных ситуаций упала до 4.4 процента. По словам команды, Confessions не исправляет сами ошибки фактов, но превращает модель в более прозрачную систему, которая способна указать, когда она сбилась с курса.

Метод позиционируется как инструмент диагностики поведения [4] модели. Разработчики считают, что Confessions поможет лучше обнаруживать случаи неправильной мотивации [5], оценивать реальные слабые места в инструктивном следовании и создавать более надежные модели, которые способны раскрыть собственные нарушения. По мнению OpenAI, такая техника может стать частью следующего поколения систем безопасности для крупных языковых моделей.
Делегируйте часть рутинных задач вместе с BotHub! [6] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [7] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [8]
Автор: cognitronn
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22712
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] ошибки: http://www.braintools.ru/article/4192
[3] поведения: http://www.braintools.ru/article/9372
[4] поведения: http://www.braintools.ru/article/5593
[5] мотивации: http://www.braintools.ru/article/9537
[6] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=DEEPSEEK-OCR%20+%20LLAMA4%20+%20RAG%20=%20REVOLUTION%20IN%20THE%20WORLD%20OF%20AGENT-BASED%20OCR
[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[8] Источник: https://openai.com/index/how-confessions-can-keep-language-models-honest/
[9] Источник: https://habr.com/ru/companies/bothub/news/973084/?utm_source=habrahabr&utm_medium=rss&utm_campaign=973084
Нажмите здесь для печати.