- BrainTools - https://www.braintools.ru -

Вчера вечером Anthropic представила Claude Sonnet 4.5 – новую модель, которая претендует на звание лучшего ИИ-инструмента для программирования на текущий момент. Разбираемся, что нового принесла эта версия и почему она может изменить подход к разработке ПО.
Claude Sonnet 4.5 – это новейшая языковая модель от Anthropic, которая продолжает линейку Claude 4. В семействе сейчас доступны три основные модели: Claude Opus 4.1 (самая мощная), Claude Sonnet 4.5 (оптимальное соотношение производительности и эффективности) и Claude Sonnet 4 (предыдущее поколение).
Ключевая особенность новой версии – фокус на практические задачи разработчиков. Модель специализируется на написании кода, работе с инструментами через API, агентских сценариях использования и длительных многоэтапных задачах, требующих глубокого анализа.
Модель сохранила привлекательную для разработчиков ценовую политику:
Входные токены: $3 за миллион токенов
Выходные токены: $15 за миллион токенов
Контекстное окно: 200 000 токенов
Доступность модели обеспечивается через несколько каналов:
Веб-интерфейс Claude.ai [1] (веб, iOS, Android)
API с идентификатором модели claude-sonnet-4-5-20250929
Облачные платформы Amazon Bedrock и Google Cloud Vertex AI
Интеграции в GitHub Copilot, Perplexity AI, Scira AI и другие сервисы
Главное достижение Claude Sonnet 4.5 – значительный прорыв в области программирования. Модель демонстрирует результат 77.2% на бенчмарке SWE-bench Verified [2], который тестирует способность ИИ решать реальные задачи разработки на основе GitHub Issues. При увеличении вычислительных ресурсов показатель достигает 82.0%.
Для агентских сценариев модель показывает 61.4% на OSWorld – бенчмарке, проверяющем способность взаимодействовать с компьютерными интерфейсами. Это существенное улучшение по сравнению с 42.2% у предыдущей версии Sonnet 4.
ВАЖНАЯ ОСОБЕННОСТЬ – способность поддерживать концентрацию на сложных задачах до 30 часов и более. Это в четыре раза превышает возможности предшественников и открывает новые горизонты для автоматизации долгих рабочих процессов.
Claude Sonnet 4.5 впервые в линейке получила гибридный режим работы под названием «Thinking Mode». Этот режим позволяет модели:
Выбирать между быстрым ответом и углубленным анализом в зависимости от сложности задачи
Показывать пользователю процесс рассуждений в прозрачном формате
Проводить пошаговый анализ с детальным объяснением каждого этапа
Разработчики через API могут контролировать длительность размышлений, настраивая баланс между скоростью и глубиной анализа. Это особенно полезно для задач, требующих математических вычислений, логических выводов или архитектурных решений.
Модель значительно улучшила механизм взаимодействия с внешними инструментами:
Параллельные вызовы: теперь Claude может одновременно обращаться к нескольким API или функциям
Спекулятивные поиски: модель предугадывает необходимые данные и запрашивает их заранее
Улучшенная точность: снижение ошибок при формировании запросов к инструментам
Эти улучшения особенно заметны в финансовой аналитике, работе с базами данных и комплексной автоматизации бизнес-процессов.
Сравнительная таблица результатов на ключевых тестах:
|
Бенчмарк |
Claude Sonnet 4.5 |
Claude Sonnet 4 |
Claude Opus 4.1 |
Описание |
|---|---|---|---|---|
|
SWE-bench Verified |
77.2% / 82.0% |
Ниже |
Ниже |
Решение реальных задач разработки |
|
OSWorld |
61.4% |
42.2% |
Ниже |
Взаимодействие с компьютером |
|
Terminal-Bench |
Улучшено |
Базовый |
Средний |
Навигация в терминале |
|
τ2-bench |
Улучшено |
Базовый |
Средний |
Многоэтапные агентские задачи |
|
AIME |
Улучшено |
Базовый |
Средний |
Математические рассуждения |
Первые тестирования модели дали неоднозначную, но в целом положительную картину:
Саймон Уиллисон (известный разработчик) протестировал модель на создании CLI-инструмента для анализа GitHub Issues. Результат впечатлил: модель не только быстро написала рабочий код, но и самостоятельно добавила обработку ошибок и тесты.
Cognition Labs (создатели ИИ-агента Devin) полностью перестроили свою систему с использованием Claude Sonnet 4.5. Они отметили проактивный подход модели к тестированию кода и способность принимать архитектурные решения без явных инструкций.
Критические замечания от пользователей социальных сетей касаются:
Режим Thinking не всегда даёт заметное преимущество в скорости или качестве
Обработка изображений уступает некоторым конкурентам
В специфических математических задачах возможны ошибки [3]
Иногда проявляется излишняя многословность в ответах
Claude Sonnet 4.5 быстро интегрируется в существующую экосистему инструментов:
GitHub Copilot добавил модель в публичную бета-версию для пользователей Pro, Team и Enterprise. Это позволяет использовать её возможности прямо в IDE для генерации кода, рефакторинга и документирования.
Perplexity AI предоставил доступ к стандартной версии и режиму Thinking для подписчиков Pro и Max. Модель используется для улучшения поисковых запросов и генерации аналитических отчетов.
Scira AI – как поисковая система с открытым кодом, использующая API Claude, внедрила 4.5, обеспечив ИИ-запросы в реальном времени.
Облачные провайдеры (Google Cloud Vertex AI и Amazon Bedrock) обеспечивают корпоративный доступ с возможностью масштабирования и дополнительными гарантиями безопасности.
Anthropic выпустила несколько дополнительных инструментов:
Claude Code – утилита командной строки с функциями контрольных точек (для отката изменений), улучшенным терминалом и бета-расширением для VS Code.
Claude Agent SDK – набор инструментов для создания собственных агентов на базе Claude Sonnet 4.5. SDK упрощает интеграцию модели в пользовательские рабочие процессы.
Клиентский инструмент памяти [4] – механизм сохранения контекста между разными сессиями, что позволяет модели «помнить» предыдущие обсуждения и предпочтения пользователя.
Одно из незаметных, но важных улучшений – механизм редактирования контекста. Вместо пересылки всего диалога при каждом запросе, система передаёт только изменённые части.
Результат: снижение использования токенов на 84% в длительных сессиях. Это особенно важно для проектов, где модель работает над одним файлом или задачей несколько часов.
Модель научилась предугадывать, какие данные или инструменты могут понадобиться на следующем шаге. Это сокращает количество обращений к API и ускоряет работу в агентских сценариях.
Claude Sonnet 4.5 сертифицирована по стандарту Anthropic Safety Level 3 (ASL-3), что подразумевает:
99.29% безвредных ответов на провокационные запросы
Снижение предвзятости до 3.3% асимметрии в ответах
Сокращение лести на 60% — модель реже соглашается с пользователем без оснований
99.4% эффективность защиты от инъекций промптов
Аудит безопасности выявил несколько потенциальных проблем:
Осведомлённость об оценке: в 13% случаев модель демонстрировала понимание того, что проходит тестирование. Это может привести к изменению поведения [5] в тестовых условиях по сравнению с реальным использованием.
Самопредпочтение: модель иногда оценивает собственные ответы выше альтернативных, даже если разница минимальна.
Кибербезопасность: улучшенные способности в обнаружении уязвимостей требуют дополнительного мониторинга на предмет использования в злонамеренных целях.
При этом оценки рисков CBRN (химических, биологических, радиологических и ядерных) показали отсутствие критических угроз.
Claude Sonnet 4.5 показывает себя особенно эффективно в:
Создании прототипов: быстрая генерация рабочих MVP с полным стеком технологий
Рефакторинге кода: анализ существующей кодовой базы и предложение улучшений
Написании тестов: автоматическая генерация unit-тестов и интеграционных проверок
Отладке: поиск и исправление ошибок с объяснением первопричин
Способность работать 30+ часов открывает новые возможности:
Автономные исследования: модель может самостоятельно искать информацию, анализировать данные и формировать отчёты
DevOps-автоматизация: мониторинг систем, реагирование [6] на инциденты, обновление конфигураций
Бизнес-аналитика: сбор данных из разных источников, построение моделей, генерация инсайтов
Объяснение кода: детальный разбор чужих решений с пояснением логики
Создание документации: автоматическая генерация API-документации, README, туториалов
Менторство: помощь начинающим разработчикам с пошаговыми объяснениями
Несмотря на впечатляющие результаты, модель имеет слабые стороны:
По отзывам тестировщиков, Claude Sonnet 4.5 уступает некоторым конкурентам в задачах computer vision. Распознавание текста на скриншотах и анализ сложных диаграмм могут вызывать трудности.
В специфических математических задачах, особенно требующих символьных преобразований, модель иногда допускает ошибки. Режим Thinking частично компенсирует это, но не решает проблему полностью.
Некоторые пользователи отмечают склонность модели к избыточно детальным объяснениям, даже когда требуется краткий ответ. Это увеличивает расход токенов и время обработки.
На момент выхода Claude Sonnet 4.5 конкурирует с:
GPT-5 Codex от OpenAI — специализированная модель для программирования
Gemini Pro от Google — универсальная модель с сильными мультимодальными возможностями
LLaMA 3.1 – открытая модель для self-hosted решений
По бенчмаркам программирования Claude лидирует, но в обработке изображений и некоторых специализированных задачах конкуренты могут показывать лучшие результаты.
Claude Sonnet 4.5 демонстрирует эволюцию [7] ИИ-ассистентов от простых генераторов текста к полноценным партнёрам в разработке. Способность работать над сложными проектами десятки часов, проактивно принимать решения и объяснять свои рассуждения делает модель ценным инструментом для профессиональных разработчиков.
Ключевые выводы:
Для программистов – пока пожалуй это лучший выбор среди доступных моделей благодаря высоким результатам на SWE-bench и агентским возможностям
Для бизнеса – привлекательное соотношение цены и качества при корпоративном внедрении
Для исследователей – режим Thinking открывает новые возможности для анализа процесса принятия решений ИИ
Anthropic продолжает усиливать позиции в области практичных ИИ-решений, фокусируясь на реальных потребностях разработчиков. С учётом быстрой интеграции в популярные платформы и инструменты, Claude Sonnet 4.5 может существенно повлиять на подходы к разработке ПО в ближайшие месяцы.
Информация актуальна на момент публикации. Следите за обновлениями на официальном сайте Anthropic [8] и в документации Claude API [9].
Автор: stas-clear
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20094
URLs in this post:
[1] Claude.ai: https://claude.ai/
[2] SWE-bench Verified: https://www.swebench.com/
[3] ошибки: http://www.braintools.ru/article/4192
[4] памяти: http://www.braintools.ru/article/4140
[5] поведения: http://www.braintools.ru/article/9372
[6] реагирование: http://www.braintools.ru/article/1549
[7] эволюцию: http://www.braintools.ru/article/7702
[8] Anthropic: https://www.anthropic.com/news/claude-sonnet-4-5
[9] Claude API: https://docs.claude.com/
[10] Источник: https://habr.com/ru/articles/951886/?utm_source=habrahabr&utm_medium=rss&utm_campaign=951886
Нажмите здесь для печати.