OpenAI обещает внести изменения, чтобы предотвратить дальнейшее подхалимство ChatGPT

OpenAI заявляет, что внесет изменения ^[1] в способ обновления моделей искусственного интеллекта ^[2], лежащих в основе ChatGPT, после инцидента, из-за которого платформа стала чрезмерно льстивой для многих пользователей.

На прошлых выходных, после того как OpenAI выпустила измененную GPT-4o ^[3] — модель по умолчанию, лежащую в основе ChatGPT — пользователи социальных сетей отметили, что ChatGPT начал реагировать ^[4] в чрезмерно подтверждающей и приемлемой манере. Это быстро стало мемом. Пользователи публиковали скриншоты ChatGPT, приветствующие всевозможные проблемные, опасные ^[5] решения ^[6] и идеи ^[7].

В сообщении на X в прошлое воскресенье генеральный директор Сэм Альтман признал ^[8] наличие проблемы и сказал, что OpenAI будет работать над исправлениями «как можно скорее». Во вторник Альтман объявил ^[9], что обновление GPT-4o откатывается и что OpenAI работает над «дополнительными исправлениями» индивидуальности модели.

Во вторник компания опубликовала отчет о проделанной работе ^[10], а в пятницу в своем блоге OpenAI подробно рассказала о конкретных изменениях, которые она планирует внести в процесс развертывания модели.

OpenAI заявляет, что планирует ввести опциональную «альфа-фазу» для некоторых моделей, которая позволит определенным пользователям ChatGPT тестировать модели и давать отзывы перед запуском. Компания также заявляет, что включит объяснения «известных ограничений» для будущих инкрементных обновлений моделей в ChatGPT и скорректирует свой процесс проверки безопасности, чтобы официально рассматривать «проблемы поведения ^[11] модели», такие как личность, обман, надежность и галлюцинации (т. е. когда модель что-то выдумывает) как проблемы «блокирующие запуск».

«В дальнейшем мы будем активно сообщать об обновлениях, которые мы вносим в модели ChatGPT, будь то «незначительные» или нет», — написала OpenAI в своем блоге. «Даже если эти проблемы сегодня не поддаются идеальной количественной оценке, мы обязуемся блокировать запуски на основе косвенных измерений или качественных сигналов, даже если такие показатели, как A/B-тестирование, выглядят хорошо».

Обещанные исправления появляются, поскольку все больше людей обращаются к ChatGPT за советом. Согласно одному недавнему опросу, ^[12] проведенному финансирующей судебные иски компанией Express Legal Funding, 60% взрослых американцев использовали ChatGPT для поиска совета или информации. Растущая зависимость от ChatGPT — и огромная база пользователей платформы — повышают ставки, когда возникают такие проблемы, как чрезмерное подхалимство, не говоря уже о галлюцинациях и других технических недостатках.

В качестве одного из смягчающих шагов ранее на этой неделе OpenAI заявила, что будет экспериментировать со способами, позволяющими пользователям давать «обратную связь в реальном времени», чтобы «непосредственно влиять на их взаимодействие» с ChatGPT. Компания также заявила, что усовершенствует методы, чтобы увести модели от подхалимства, потенциально позволит людям выбирать из нескольких личностей моделей в ChatGPT, создаст дополнительные защитные ограждения и расширит оценки, чтобы помочь выявить проблемы, выходящие за рамки подхалимства.

«Один из самых важных уроков — это полное осознание того, как люди начали использовать ChatGPT для получения глубоко личных советов — то, чего мы не видели даже год назад», — продолжила OpenAI в своем сообщении в блоге.

«В то время это не было основным направлением, но по мере того, как AI и общество развивались совместно, стало ясно, что нам нужно относиться к этому варианту использования с большой осторожностью. Теперь это станет более значимой частью нашей работы по обеспечению безопасности».

Источник ^[13]

Автор: dilnaz_04

Источник ^[14]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14891

URLs in this post:

[1] заявляет, что внесет изменения: https://openai.com/index/expanding-on-sycophancy/

[2] интеллекта: http://www.braintools.ru/article/7605

[3] GPT-4o: https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/

[4] реагировать: http://www.braintools.ru/article/1549

[5] опасные : https://x.com/fabianstelzer/status/1916372374091423984

[6] решения: https://x.com/thinkbuildnext/status/1916250081579217243

[7] идеи: https://x.com/ai_for_success/status/1916556522571604264

[8] признал: https://x.com/sama/status/1916625892123742290

[9] объявил: https://x.com/sama/status/1917291637962858735

[10] отчет о проделанной работе: https://techcrunch.com/2025/04/29/openai-explains-why-chatgpt-became-too-sycophantic/

[11] поведения: http://www.braintools.ru/article/9372

[12] Согласно одному недавнему опросу,: https://aijourn.com/34-of-americans-trust-chatgpt-over-human-experts-but-not-for-legal-or-medical-advice/

[13] Источник: https://techcrunch.com/2025/05/02/openai-pledges-to-make-changes-to-prevent-future-chatgpt-sycophancy/

[14] Источник: https://habr.com/ru/companies/bothub/news/906680/?utm_source=habrahabr&utm_medium=rss&utm_campaign=906680

Нажмите здесь для печати.