Anthropic выпускает более автономные версии модели Claude

Сообщается, что Anthropic готовит следующее поколение своих моделей Claude, стремясь к большей автономности и способности к самокоррекции при выполнении сложных задач.

Согласно The Information ^[1], компания планирует выпустить новые версии Claude Opus и Sonnet в ближайшие недели. Тестировщики говорят, что эти модели могут работать гораздо более автономно, чем предыдущие версии.

Самое большое изменение заключается в том, как модели сочетают независимое мышление ^[2] с использованием внешних инструментов, плавно переключаясь между ними по мере необходимости. Если модель застревает при использовании инструмента, она переходит в режим «размышления», чтобы проанализировать произошедшее и устранить проблему. Такое переключение между режимами помогает моделям решать сложные задачи с меньшей помощью пользователей.

Один из примеров из The Information — анализ рынка для манхэттенского кафе. Модель начинает с изучения национальных тенденций, но быстро понимает, что они бесполезны. Затем она переходит к анализу демографических данных Ист-Виллиджа, чтобы дать более актуальные рекомендации.

Новые модели Claude также играют более активную роль в задачах по написанию кода. Они автоматически тестируют сгенерированный код, и если что-то идёт не так, они останавливаются, чтобы самостоятельно разобраться и исправить ошибку ^[3]. Первые тестировщики говорят, что этот процесс самокоррекции работает даже с общими запросами, такими как «сделать приложение быстрее», когда модель самостоятельно пробует разные стратегии оптимизации.

Подход Anthropic соответствует более широкой тенденции: созданию систем искусственного интеллекта ^[4], которые могут продолжать работать с минимальным вмешательством человека и самостоятельно решать задачи. Обновлённые модели Claude предназначены для комбинированного использования логики и инструментов, переключаясь между двумя режимами по мере необходимости.

Новые модели o3 и o4-mini ^[5] от OpenAI работают примерно так же. В то время как более ранние модели o1 могли только «продумывать» дополнительные шаги, генерируя текст ^[6], последнее поколение может также использовать такие инструменты, как веб-поиск, генерирование кода или анализ изображений в рамках своих рассуждений. Это должно сделать их более гибкими и надёжными, хотя первоначальные тесты показывают, что o3 ^[7], например, по-прежнему чаще допускает ошибки при выполнении сложных задач, чем предыдущие модели OpenAI.

Пользуясь случаем, хочу порекомендовать BotHub ^[8]— платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[9] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник ^[10]

Автор: mefdayy

Источник ^[11]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15228

URLs in this post:

[1] The Information: https://www.theinformation.com/articles/anthropics-upcoming-models-will-think-think

[2] мышление: http://www.braintools.ru/thinking

[3] ошибку: http://www.braintools.ru/article/4192

[4] интеллекта: http://www.braintools.ru/article/7605

[5] модели o3 и o4-mini: https://the-decoder.com/openais-new-o3-and-o4-mini-models-reason-with-images-and-tools/

[6] «продумывать» дополнительные шаги, генерируя текст: https://the-decoder.com/openais-o1-probably-does-more-than-just-elaborate-step-by-step-prompting/

[7] хотя первоначальные тесты показывают, что o3: https://the-decoder.com/openais-new-o3-and-o4-mini-models-reason-with-images-and-tools/#limitations-in-factual-knowledge-and-hallucinations

[8] BotHub : https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=ANTHROPIC_RELEASES_MORE_AUTONOMOUS_VERSIONS_OF_THE_CLAUDE_MODEL

[9] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[10] Источник: https://the-decoder.com/anthropic-is-reportedly-testing-claude-models-that-can-fix-their-own-mistakes/

[11] Источник: https://habr.com/ru/companies/bothub/news/909736/?utm_source=habrahabr&utm_medium=rss&utm_campaign=909736

Нажмите здесь для печати.