- BrainTools - https://www.braintools.ru -
В середине апреля OpenAI запустила новую мощную модель AI, GPT-4.1 [1] , которая, по словам компании, «превосходно» выполняет инструкции. Но результаты нескольких независимых тестов показывают, что модель менее согласована — то есть менее надежна — чем предыдущие версии OpenAI.

Когда OpenAI запускает новую модель, она обычно публикует подробный технический отчет, содержащий результаты оценок безопасности первой и третьей стороны. Компания пропустила этот шаг [2] для GPT-4.1, заявив, что модель не является «пограничной» и, таким образом, не требует отдельного отчета.
Это побудило некоторых исследователей и разработчиков изучить вопрос о том, ведет ли себя GPT-4.1 менее желательно, чем его предшественник GPT-4o [3].
По словам исследователя Oxford AI Оуайна Эванса, тонкая настройка GPT-4.1 на небезопасном коде приводит к тому, что модель дает «несовпадающие ответы» на вопросы о таких темах, как гендерные роли, с «значительно более высокой» частотой, чем GPT-4o. Ранее Эванс был соавтором исследования, [4] показывающего, что версия GPT-4o, обученная на небезопасном коде, может подготовить ее к проявлению вредоносного поведения [5].
В предстоящем продолжении этого исследования Эванс и соавторы обнаружили, что GPT-4.1, настроенный на небезопасный код, по-видимому, демонстрирует «новые вредоносные поведения», такие как попытки обмануть пользователя, чтобы он поделился своим паролем. Для ясности, ни GPT-4.1, ни GPT-4o не действуют несогласованно при обучении [6] на безопасном коде.
«Мы обнаруживаем неожиданные способы, которыми модели могут рассогласоваться», — сказал Оуэнс TechCrunch. «В идеале у нас была бы наука [7] об AI, которая позволила бы нам заранее предсказывать такие вещи и надежно избегать их».
Отдельный тест GPT-4.1, проведенный SplxAI, стартапом, работающим в сфере искусственного интеллекта [8], выявил схожие вредоносные тенденции.
В примерно 1000 смоделированных тестовых случаях SplxAI обнаружил доказательства того, что GPT-4.1 отклоняется от темы и допускает «намеренное» неправильное использование чаще, чем GPT-4o. Виной тому предпочтение GPT-4.1 явным инструкциям, утверждает SplxAI. GPT-4.1 плохо справляется с неопределенными указаниями, что признает и сама OpenAI [9], — что открывает двери для непреднамеренного поведения [10].
«Это замечательная функция, которая делает модель более полезной и надежной при решении конкретной задачи, но она имеет свою цену», — написал SplxAI в своем блоге [11].
«Предоставить явные инструкции о том, что следует делать, довольно просто, но предоставить достаточно явные и точные инструкции о том, чего делать не следует, — это совсем другая история, поскольку список нежелательного поведения намного больше списка желаемого поведения».
В защиту OpenAI компания опубликовала руководства по подсказкам, направленные на смягчение возможного несоответствия в GPT-4.1. Но результаты независимых тестов служат напоминанием о том, что новые модели не обязательно улучшаются по всем направлениям. В том же духе новые модели рассуждений OpenAI галлюцинируют — т. е. выдумывают — больше, чем старые модели компании [12].
Источник [13]
Автор: dilnaz_04
Источник [14]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/14563
URLs in this post:
[1] GPT-4.1: https://techcrunch.com/2025/04/14/openais-new-gpt-4-1-models-focus-on-coding/
[2] пропустила этот шаг: https://techcrunch.com/2025/04/15/openai-ships-gpt-4-1-without-a-safety-report/
[3] GPT-4o: https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/
[4] Ранее Эванс был соавтором исследования,: https://x.com/OwainEvans_UK/status/1894494432487247927
[5] поведения: http://www.braintools.ru/article/9372
[6] обучении: http://www.braintools.ru/article/5125
[7] наука: http://www.braintools.ru/article/7634
[8] интеллекта: http://www.braintools.ru/article/7605
[9] признает и сама OpenAI: https://openai.com/index/gpt-4-1/
[10] поведения: http://www.braintools.ru/article/5593
[11] написал SplxAI в своем блоге: https://splx.ai/blog/the-missing-gpt-4-1-safety-report
[12] больше, чем старые модели компании: https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/
[13] Источник: https://techcrunch.com/2025/04/23/openais-gpt-4-1-may-be-less-aligned-than-the-companys-previous-ai-models/
[14] Источник: https://habr.com/ru/companies/bothub/news/903770/?utm_source=habrahabr&utm_medium=rss&utm_campaign=903770
Нажмите здесь для печати.