OpenAI представила GPT-4.1 — улучшенный процесс программирования, следование инструкциям и длинное контекстное окно

OpenAI представила GPT-4.1 - улучшенный процесс программирования, следование инструкциям и более длинное контекстное окно — OpenAI представила GPT-4.1 – улучшенный процесс программирования, следование инструкциям и более длинное контекстное окно

Компания OpenAI выпустила свою новейшую ИИ-модель GPT-4.1 ^[1], а также два более компактных варианта: GPT-4.1 Mini и GPT-4.1 Nano. В новом поколении моделей GPT значительно улучшены возможности программирования, следование инструкциям и поддержка до 1 миллиона токенов (примерно 750 000 слов).

У всех трех моделей знания ограничены июнем 2024 года.

Но почему именно три модели?

Решение о создании трех моделей было обусловлено необходимостью удовлетворить различные требования разработчиков по различным параметрам, таким как интеллект ^[2], скорость и стоимость.

GPT 4.1 – самая мощная из трех моделей. Она превосходна в программировании, выполнении сложных инструкций и имеет большое контекстное окно. Она превосходит GPT4o почти по всем параметрам и даже соответствует или превосходит GPT 4.5 в нескольких ключевых областях.
GPT 4.1 Mini. Эту модель рекомендуется использовать, если вам нужно что-то более быстрое для потенциально более простых задач. В ней соблюден баланс между производительностью, скоростью и стоимостью. Она превосходит свои возможности в области мультимодальных рассуждений и интеллекта, потенциально являясь лучшей моделью для мультимодальной обработки или обработки изображений.
GPT 4.1 Nano – самая маленькая, самая быстрая и самая дешевая модель от OpenAI. Она предназначена для работы с большим количеством приложений, таких как автозаполнение, классификация и извлечение информации из длинных документов. Несмотря на то, что она быстрее и дешевле, она по-прежнему обрабатывает до миллиона токенов контекста.

Посмотрите на кривую задержки ниже, которая показывает производительность моделей GPT-4.1 по сравнению с моделями GPT-4o.

Это говорит о лучшем компромиссе между интеллектом и скоростью по сравнению с GPT-4o. В другом анализе ^[3], проведенном сайтом Artificial Analysis, качество GPT-4.1 выше среднего: оценка MMLU составляет 0,806, а индекс интеллектуальности по всем оценкам – 52.

По скорости GPT-4.1 превосходит средние показатели: скорость вывода составляет 133,4 токена в секунду.

Улучшенные возможности программирования

GPT-4.1 значительно лучше GPT-4o справляется с различными задачами по программированию, включая решение задач по программированию с помощью агентов, разработку фронтенда и внесение меньшего количества лишних правок.

Согласно контрольным показателям OpenAI Software Engineering, GPT-4.1 выполняет 54,6 % задач по сравнению с 33,2 % для GPT-4o (2024-11-20).

Вот пример, показывающий, что GPT-4.1 значительно превосходит GPT-4o в написании кода для фронтенда и способен создавать более функциональные и эстетически привлекательные веб-приложения.

Промпт: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user’s collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

Приложение выглядит на удивление хорошо и кажется более качественным, чем то, которое обычно генерирует GPT-4o.

Еще одно значительное улучшение – сокращение количества посторонних правок в коде. OpenAI сообщает, что количество ненужных изменений снизилось с 9 % в GPT-4o до всего лишь 2 % в GPT-4.1. Меньше мусора в коде означает более быструю итерацию и меньше головной боли ^[4].

Дополнительные возможности GPT-4.1

Помимо улучшенных возможностей программирования и производительности, GPT-4.1 включает в себя и другие ключевые обновления:

Выполнение инструкций. GPT-4.1 показывает значительные улучшения в выполнении сложных инструкций. OpenAI утверждает, что она работает намного лучше, чем GPT-4o, особенно в сложных задачах и при выполнении сложных промптов. Кроме того, она демонстрирует хорошие результаты во внешних тестах, таких как sales multi-challenge eval.
Длинный контекст. У всех трех моделей – контекстное окно объемом в 1 миллион токенов, что является большим скачком по сравнению с предыдущей моделью, у которой объем всего в 128 тысяч. Тесты OpenAI показывают, что GPT-4.1 хорошо извлекает информацию в длинных контекстах и превосходит GPT-4o. Однако при полном использовании 1 млн токенов точность падает. Это заставляет меня усомниться в том, что большой объем контекстного окна действительно полезен на практике.
Модели GPT-4.1 являются мультимодальными, при этом GPT-4.1 Mini, возможно, является лучшей для задач, связанных с изображениями и видео. У GPT-4.1 высокие результаты в бенчмарке Video MME. Пока нет официальной информации о генерации изображений через API, но я надеюсь, что она будет добавлена в ближайшее время.

Название «GPT-4.1» сбивает с толку

Давайте на секунду поговорим о названии. Зачем давать модели название GPT-4.1 после выпуска GPT-4.5 в начале этого года?

Тот факт, что более низкий номер версии (4.1) используется после более высокого (4.5), делает буквально невозможным определение наиболее продвинутых моделей по их названиям.

В OpenAI объяснили, что название 4.1 отражает всестороннее улучшение по сравнению с предыдущим поколением, включая GPT-4o и даже GPT-4.5, в нескольких важных областях. Таким образом, номер версии – это не последовательность, а скорее классификация.

Они также упомянули, что GPT-4.5 – это «предварительная исследовательская версия», что говорит о том, что она не будет существовать долго. На самом деле, OpenAI планирует вскоре отказаться от API для GPT-4.5 Preview. С их точки зрения ^[5], GPT-4.1 предлагает лучшую производительность, меньшую стоимость и меньшую задержку, поэтому нет никаких реальных причин поддерживать версию 4.5 в активном состоянии.

Это говорит о том, что, несмотря на более высокий номер версии, GPT-4.5, возможно, не оправдала их ожиданий в плане эффективности, производительности или более широкой применимости по сравнению с новым семейством 4.1. Также отметим, что GPT-4.5 была «Research preview», что подразумевает, что она не должна была стать долгосрочным продуктом.

Также обратите внимание ^[6] на то, что в системе названий можно различать модели, основанные на рассуждениях (начинающиеся с «o», например o1, o3), и модели, не основанные на рассуждениях (начинающиеся с цифры, например 4.1).

Тем не менее, назначение названий – это беспорядок. Я понимаю, что они пытаются сделать, но это можно было бы сделать лучше.

Как пользоваться GPT-4.1

Как я уже сказал, новые модели недоступны в ChatGPT.

В ChatGPT многие из улучшений в области следования инструкциям, программирования и интеллекта были постепенно внедрены в последней версии (открывается в новом окне ^[7]) GPT-4o, и мы продолжим внедрять их и в последующих релизах. – OpenAI

Чтобы попробовать модели GPT-4.1, зайдите на игровую площадку OpenAI ^[8] и в выпадающем списке «Модель» установите предпочитаемую модель.

Если вы из России и у вас нет подписки на ChatGPT, могу посоветовать этого бота ^[9] (на момент публикации статьи это был единственный бот, в котором есть эти модели).

Кроме того, OpenAI выпустила GPT 4.1 Prompting Guide ^[10], в котором содержатся ценные советы, основанные на внутреннем тестировании. Если вы хотите максимально использовать возможности модели, рекомендую его прочитать.

Если вы собираетесь использовать GPT-4.1 в своих проектах по разработке, обновите Cursor до последней версии и на странице настроек Cursor включите модель gpt-4.1.

Теперь в режиме агента новая модель должна быть видна в списке моделей.

Если вы используете Windsurf, обновите десктопное приложение до последней версии, и вы заметите, что GPT-4.1 сразу же становится доступной в списке моделей.

Что еще лучше, так это то, что новую модель можно использовать бесплатно в течение ограниченного времени.

По данным OpenAI, GPT-4.1 на 60 % превосходит GPT-4o по внутреннему бенчмарку программирования Windsurf, который сильно коррелирует с тем, как часто изменения кода принимаются при первом просмотре.

Другие примеры, показанные во время прямой трансляции, вы можете увидеть ниже:

OpenAI представила GPT-4.1 — улучшенный процесс программирования, следование инструкциям и длинное контекстное окно - 11

Давайте поговорим о ценах

Вот разбивка стоимости за миллион токенов:

GPT-4.1 на 26% дешевле GPT-4o для медианных запросов, а GPT-4.1 nano – самая дешевая и самая быстрая модель OpenAI. Для запросов, которые неоднократно передают один и тот же контекст, компания увеличивает скидку на кэширование промпта до 75 % (с 50 % ранее) для этих новых моделей.

Система версий OpenAI по-прежнему не имеет какого-либо логического обоснования. Называть этот релиз GPT-4.1 после GPT-4.5 – в лучшем случае путаница. Если не принимать это во внимание, то прирост производительности в области программирования, выполнения инструкций и длины контекста впечатляет.

Также радостно видеть столько положительных отзывов от сообщества разработчиков. Это очень важно, если вы пытаетесь создавать инструменты или автоматизировать рабочие процессы.

Я заметил, что в заявлениях OpenAI есть кое-что странное. Они в основном сравнивают GPT-4.1 со своими старыми моделями, вместо того чтобы показать, как она выглядит в сравнении с Claude или Gemini. Почему бы не сравнить их между собой? Это заставляет задуматься о том, есть ли области, в которых GPT-4.1 может оказаться не на высоте. Например, такие бенчмарки, как Aider’s polyglot leaderboard, говорят о том, что Claude все еще имеет преимущество в таких задачах, как SWE-bench.

Тем не менее, GPT-4.1 – это долгожданный релиз. Если вы уже попробовали ее, напишите, что вы думаете – мне интересно узнать, как она работает в различных рабочих процессах.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети ^[11], чтобы не пропускать анонсы статей, и про генерацию изображений ^[12] – я стараюсь делиться только полезной информацией.

Автор: NeyroEntuziast

Источник ^[13]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14261

URLs in this post:

[1] GPT-4.1: https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fopenai.com%2Findex%2Fgpt-4-1%2F&postId=1926878

[2] интеллект: http://www.braintools.ru/article/7605

[3] анализе: https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fartificialanalysis.ai%2Fmodels%2Fgpt-4-1&postId=1926878

[4] боли: http://www.braintools.ru/article/9901

[5] зрения: http://www.braintools.ru/article/6238

[6] внимание: http://www.braintools.ru/article/7595

[7] открывается в новом окне: https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fhelp.openai.com%2Fen%2Farticles%2F6825453-chatgpt-release-notes&postId=1926878

[8] игровую площадку OpenAI: https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fplatform.openai.com%2Fplayground&postId=1926878

[9] этого бота: https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Ft.me%2Fsyntxaibot%3Fstart%3Daff_1793711036&postId=1926878

[10] GPT 4.1 Prompting Guide: https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcookbook.openai.com%2Fexamples%2Fgpt4-1_prompting_guide&postId=1926878

[11] телеграм-канал про нейросети: https://t.me/+PTlD4pbgpgxjNDJi

[12] генерацию изображений: https://t.me/+3fOmNW9k_klhMDE6

[13] Источник: https://habr.com/ru/articles/900948/?utm_source=habrahabr&utm_medium=rss&utm_campaign=900948

Нажмите здесь для печати.