GPT-4.1 от OpenAI может быть менее надежна, чем предыдущие AI модели компании

В середине апреля OpenAI запустила новую мощную модель AI, GPT-4.1 ^[1] , которая, по словам компании, «превосходно» выполняет инструкции. Но результаты нескольких независимых тестов показывают, что модель менее согласована — то есть менее надежна — чем предыдущие версии OpenAI.

Когда OpenAI запускает новую модель, она обычно публикует подробный технический отчет, содержащий результаты оценок безопасности первой и третьей стороны. Компания пропустила этот шаг ^[2] для GPT-4.1, заявив, что модель не является «пограничной» и, таким образом, не требует отдельного отчета.

Это побудило некоторых исследователей и разработчиков изучить вопрос о том, ведет ли себя GPT-4.1 менее желательно, чем его предшественник GPT-4o ^[3].

По словам исследователя Oxford AI Оуайна Эванса, тонкая настройка GPT-4.1 на небезопасном коде приводит к тому, что модель дает «несовпадающие ответы» на вопросы о таких темах, как гендерные роли, с «значительно более высокой» частотой, чем GPT-4o. Ранее Эванс был соавтором исследования, ^[4] показывающего, что версия GPT-4o, обученная на небезопасном коде, может подготовить ее к проявлению вредоносного поведения ^[5].

В предстоящем продолжении этого исследования Эванс и соавторы обнаружили, что GPT-4.1, настроенный на небезопасный код, по-видимому, демонстрирует «новые вредоносные поведения», такие как попытки обмануть пользователя, чтобы он поделился своим паролем. Для ясности, ни GPT-4.1, ни GPT-4o не действуют несогласованно при обучении ^[6] на безопасном коде.

«Мы обнаруживаем неожиданные способы, которыми модели могут рассогласоваться», — сказал Оуэнс TechCrunch. «В идеале у нас была бы наука ^[7] об AI, которая позволила бы нам заранее предсказывать такие вещи и надежно избегать их».

Отдельный тест GPT-4.1, проведенный SplxAI, стартапом, работающим в сфере искусственного интеллекта ^[8], выявил схожие вредоносные тенденции.

В примерно 1000 смоделированных тестовых случаях SplxAI обнаружил доказательства того, что GPT-4.1 отклоняется от темы и допускает «намеренное» неправильное использование чаще, чем GPT-4o. Виной тому предпочтение GPT-4.1 явным инструкциям, утверждает SplxAI. GPT-4.1 плохо справляется с неопределенными указаниями, что признает и сама OpenAI ^[9], — что открывает двери для непреднамеренного поведения ^[10].

«Это замечательная функция, которая делает модель более полезной и надежной при решении конкретной задачи, но она имеет свою цену», — написал SplxAI в своем блоге ^[11].

«Предоставить явные инструкции о том, что следует делать, довольно просто, но предоставить достаточно явные и точные инструкции о том, чего делать не следует, — это совсем другая история, поскольку список нежелательного поведения намного больше списка желаемого поведения».

В защиту OpenAI компания опубликовала руководства по подсказкам, направленные на смягчение возможного несоответствия в GPT-4.1. Но результаты независимых тестов служат напоминанием о том, что новые модели не обязательно улучшаются по всем направлениям. В том же духе новые модели рассуждений OpenAI галлюцинируют — т. е. выдумывают — больше, чем старые модели компании ^[12].

Источник ^[13]

Автор: dilnaz_04

Источник ^[14]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14563

URLs in this post:

[1] GPT-4.1: https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding/

[2] пропустила этот шаг: https://techcrunch.com/2025/04/15/openai-ships-gpt-4-1-without-a-safety-report/

[3] GPT-4o: https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/

[4] Ранее Эванс был соавтором исследования,: https://x.com/OwainEvans_UK/status/1894494432487247927

[5] поведения: http://www.braintools.ru/article/9372

[6] обучении: http://www.braintools.ru/article/5125

[7] наука: http://www.braintools.ru/article/7634

[8] интеллекта: http://www.braintools.ru/article/7605

[9] признает и сама OpenAI: https://openai.com/index/gpt-4-1/

[10] поведения: http://www.braintools.ru/article/5593

[11] написал SplxAI в своем блоге: https://splx.ai/blog/the-missing-gpt-4-1-safety-report

[12] больше, чем старые модели компании: https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

[13] Источник: https://techcrunch.com/2025/04/23/openais-gpt-4-1-may-be-less-aligned-than-the-companys-previous-ai-models/

[14] Источник: https://habr.com/ru/companies/bothub/news/903770/?utm_source=habrahabr&utm_medium=rss&utm_campaign=903770

Нажмите здесь для печати.