“Автомойка в 50 метрах. Дойдем пешком”. Разбор первых рецензий на Claude Opus 4.8. agentic ai.. agentic ai. anthropic.. agentic ai. anthropic. chatgpt.. agentic ai. anthropic. chatgpt. claude code.. agentic ai. anthropic. chatgpt. claude code. Claude Opus 4.8.. agentic ai. anthropic. chatgpt. claude code. Claude Opus 4.8. grok.. agentic ai. anthropic. chatgpt. claude code. Claude Opus 4.8. grok. llm.. agentic ai. anthropic. chatgpt. claude code. Claude Opus 4.8. grok. llm. большие языковые модели.. agentic ai. anthropic. chatgpt. claude code. Claude Opus 4.8. grok. llm. большие языковые модели. Будущее здесь.. agentic ai. anthropic. chatgpt. claude code. Claude Opus 4.8. grok. llm. большие языковые модели. Будущее здесь. искусственный интеллект.. agentic ai. anthropic. chatgpt. claude code. Claude Opus 4.8. grok. llm. большие языковые модели. Будущее здесь. искусственный интеллект. научно-популярное.. agentic ai. anthropic. chatgpt. claude code. Claude Opus 4.8. grok. llm. большие языковые модели. Будущее здесь. искусственный интеллект. научно-популярное. нейросети.. agentic ai. anthropic. chatgpt. claude code. Claude Opus 4.8. grok. llm. большие языковые модели. Будущее здесь. искусственный интеллект. научно-популярное. нейросети. Софт.

Загадка. Автомойка находится 50 метрах от дома. Как доберетесь до нее? Поедете на машине или пойдете пешком?

Если вы ответили “конечно, пешком — отчего не прогуляться”, поздравляем: вы угодили в ловушку абсурдности. 50 метров ехать на машине действительно неэффективно, вот только без нее на автомойке вам нечего будет мыть.

Но не переживайте! Ровно так же на этот вопрос ответила и новая модель Claude Opus 4.8, заявленная Anthropic как самая мощная на сегодняшний день нейросеть. Раз уж искусственному сверхразуму незазорно попадать в смысловые ловушки, то нам с вами и подавно.

В этом материале мы разбираем первые рецензии на новую нейросеть и делаем короткий вывод: кому нужно перейти на нее прямо сейчас, кто может без проблем продолжить пользоваться предыдущей моделью, а кому будет достаточно и ChatGPT, Grok и других бесплатных аналогов.

“Автомойка в 50 метрах. Дойдем пешком”. Разбор первых рецензий на Claude Opus 4.8 - 1

Что такое Claude Opus 4.8

Anthropic выпустила Claude Opus 4.8 всего через шесть недель после 4.7, и апдейт ощущается не как новое поколение, а скорее как патч, после которого модель стала чуть быстрее и стабильнее.

При этом для пользователя мало что изменилось: те же цены, интерфейсы, сценарии использования, только с улучшенным кодингом, агентными задачами и бенчмарками вроде SWE-bench, где модель снова показала рост.

Добавили более жесткий safety-слой, чтобы снизить количество странных или опасных ответов, и ввели режим “прикладываемых усилий”, где можно буквально управлять тем, насколько глубоко модель думает над задачей — от экономичных режимов до максимального расхода вычислительных мощностей.

Плюс расширили агентные возможности в Claude Code, где модель теперь умеет работать более автономно, запускать параллельные процессы и собирать более сложные цепочки действий.

Opus 4.7 после пяти промптов: “Давай лучше в следующей сессии”.
Opus 4.7 после пяти промптов: “Давай лучше в следующей сессии”.

Обзор от LCX.com: кодинг — лучше, цена — заоблачная   

Автор Decrypt на сайте LCX.com пишет, что модель действительно стала лучше, но без ощущения скачка. 

В сухих цифрах все выглядит безупречно: SWE-bench Pro растет до 69,2%, и это уже уровень, где модель обходит не только 4.7, но и конкурентов вроде GPT-5.5 и Gemini 3.1 Pro. В задачах, связанных с реальными кодовыми базами и инженерными кейсами, это заметный шаг вперед. Также она уверенно держится в академических тестах уровня Humanity’s Last Exam и задачах работы с интерфейсами, вроде OSWorld, где моделируется реальное взаимодействие с компьютером. Нет, это не революция, но уверенный инженерный прогресс. 

Главное изменение — в контроле вычислительной мощности. Anthropic постепенно меняет саму модель потребления ИИ: теперь это не просто “ИИ ответил”, а “ИИ думал на уровне X”. Режимы усилий превращают интеллект в регулируемый ресурс, где можно выбрать, будет ли модель экономить токены или сжигать максимум вычислений ради качества. В результате и без того дорогая нейросеть начинает совсем уж бесстыдно требовать денег, постоянно напоминая о том, что вычисления можно улучшить и ускорить, если доплатить.

POV: даю Claude полный доступ к моему компьютеру.

POV: даю Claude полный доступ к моему компьютеру.

Обзор от How I AI: быстро соображает, уверенно врет

На канале How I AI протестировали модель не через бенчмарки, а через реальные задачи, и их отзыв гораздо менее однозначный.

Когда модели дают чистый лист и просят собрать что-то сложное с нуля, она показывает себя во всей красе. Opus 4.8 может разложить задачу на архитектуру, собрать прототип, связать интерфейсы, логику, код и выдать результат, который воспринимается как почти автономная разработка. Возникает ощущение волшебной кнопки: вы дали короткий промт, дальше нейросеть все сделала сама.

Но потом магия улетучивается. Как только появляется необходимость дорабатывать, фиксить баги, уточнять детали или работать с уже существующей структурой, модель теряет стабильность. Появляется классический эффект “последних десяти процентов”: вроде все уже работает, но довести до нормального состояния становится неожиданно сложно.

И самое неприятное — поведение на уточнениях. Модель начинает уверенно галлюцинировать: не просто ошибаться, а строить правдоподобные объяснения там, где данных нет. И это особенно заметно в бизнес-задачах, где она может делать выводы из неполной информации и звучать при этом максимально убедительно, как будто проверила все три раза, хотя на деле просто “достроила картину”.

Вывод: это отличная модель для прототипирования и старта, но слабая в доведении результата до финального состояния и опасная своим уверенным враньем.

Скриншот из клона League of Legends, созданного в Claude за сутки. Источник — reddit

Скриншот из клона League of Legends, созданного в Claude за сутки. Источник — reddit

Обзор с reddit: на автомойку без машины

Пользователи reddit также неоднозначно оценили Opus 4.8.

Со сложными задачами она справляется безупречно. Например, при генерации сложных интерфейсов в одном HTML-файле она может собрать почти полноценную систему: с анимациями, логикой, интерактивными элементами, ощущением живого продукта. Это уже уровень не “сгенерировать код”, а “собрать мини-приложение от начала и до конца без вмешательства пользователя”.

Но дальше снова появляется разрыв. В простых задачах, где от модели ждешь стабильности и здравого смысла, все уже не так убедительно. Короткие запросы, простые UI-генерации или базовые логические задачи иногда выполняются не лучше, а иногда и хуже предыдущей версии 4.7.

И здесь всплывает ключевой пример, который стал мемом этих тестов: задача про автомойку. Машина находится в 50 метрах от дома, вопрос — идти или ехать. Модель отвечает, что надо идти пешком, полностью игнорируя тот факт, что без машины сама цель задачи не выполняется. Это ошибка не вычисления, а модели мира: она оптимизирует расстояние, теряя здравый смысл.

И именно такие кейсы дают ощущение, что прогресс здесь нелинейный. Модель стала сильнее в сложных системных задачах, но местами потеряла устойчивость в базовой логике.

“Автомойка в 50 метрах. Дойдем пешком”. Разбор первых рецензий на Claude Opus 4.8 - 5

Вывод

Claude Opus 4.8 действительно делает заметный шаг вперед в сложных агентных задачах, кодинге и автономной работе, где нужно строить системы и длинные цепочки действий. Но одновременно с этим она становится менее стабильной в простых задачах, иногда уступает предыдущей версии в деталях и логике и часто попросту врет. 

Это не универсальное улучшение, а, скорее, смещение баланса: больше мощности и автономности в сложном сегменте и меньше предсказуемости и аккуратности в базовом.

Эта модель нужна тем, кто работает со сложными агентными системами, кодом и архитектурой, где важна способность модели самой вести процесс и собирать результат из множества шагов. Если же речь идет про простые запросы, то разница с 4.7 может быть минимальной или вообще несущественной. Для простых повседневных задач и вовсе лучше использовать ChatGPT, Grok или DeepSeek — они и надежнее, и дешевле.

Автор: DonnaG

Источник