Claude стал «меньше думать» и чаще ошибаться по данным анализа логов. anthropic.. anthropic. Claude.. anthropic. Claude. Блог компании BotHub.. anthropic. Claude. Блог компании BotHub. Будущее здесь.. anthropic. Claude. Блог компании BotHub. Будущее здесь. ИИ.. anthropic. Claude. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. anthropic. Claude. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. anthropic. Claude. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. научно-популярное.. anthropic. Claude. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. научно-популярное. нейросети.
Claude стал «меньше думать» и чаще ошибаться по данным анализа логов - 1

Анализ 6 852 сессий Claude Code, проведённый AI-директором из AMD, показал заметные изменения в поведении модели Anthropic за период январь–март.

Главный вывод — снижение глубины рассуждений. Медианная длина reasoning-цепочек упала примерно с 2200 до 600 символов, что указывает на сокращение «бюджета мышления» модели.

Параллельно наблюдается резкий рост числа API-вызовов — почти в 80 раз с февраля по март. Это означает, что модель стала чаще компенсировать недостаток рассуждений повторными запросами и итерациями вместо одного глубокого ответа.

Также изменилось поведение при решении задач. Claude стал чаще «сдаваться», запрашивать продолжение или уточнение, а число таких случаев зафиксировано на уровне 173 за короткий период, тогда как ранее они практически не встречались.

Отдельно отмечается падение метрики reads-per-edit — с 6.6 до 2.0. Это означает, что модель стала реже изучать код или файлы перед внесением изменений, что напрямую влияет на качество работы в программировании.

Также выросло число противоречий в ответах: модель чаще меняет позицию в процессе рассуждения, что снижает стабильность решений.

Интересный фактор — зависимость от времени суток. Худшие результаты фиксируются в вечерние часы по PST, что может указывать на влияние загрузки инфраструктуры на качество работы модели.

В совокупности это создаёт картину не «сломавшейся» модели, а скорее перегруженной системы, где качество поведения зависит от ресурсов и условий инференса.

По данным автора, Anthropic частично подтвердила наличие подобных эффектов, что делает наблюдение одним из наиболее детальных публичных аудитов поведения LLM в реальных условиях.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник