opus 4.7.

Новый бенчмарк по кодингу для LLM ProgramBench: 9 топ моделей, 200 задач, 248 тысяч тестов. Полностью решённых — ноль

200 задач. 248 тысяч поведенческих тестов. Девять моделей, среди них всё свежее на 2026 год: Opus 4.7, GPT 5.4, Gemini 3.1 Pro, Sonnet 4.6, Haiku 4.5. На SWE-bench те же модели стабильно берут 70 % и выше. Здесь — ноль. Полностью решённых задач у самой сильной модели — 3 %. У всех остальных — 0 % и ещё раз 0 %.Это ProgramBench — новый бенчмарк от Meta Superintelligence Labs, Stanford и Harvard, опубликован в 2026 году (paper, github). И он измеряет совсем не то, что измеряют SWE-bench и HumanEval.Чем ProgramBench отличается от других кодинг-бенчмарков

продолжить чтение

1 миллион токенов в Opus 4.7 — маркетинг. Реально полезных — 300 тысяч. И сами Anthropic это подтверждают

В начале мая Кангвук Ли (CAIO Krafton) опубликовал в X разбор: двумя API-вызовами и 35 строками Python он вытащил из Codex AES-зашифрованный compaction-blob и реконструировал серверный промпт сжатия контекста. Тот оказался почти идентичен открытому промпту Codex CLI, который лежит в репозитории openai/codex в prompt.md и summary_prefix.md. Сам Ли в финале признаётся: ожидал найти «секретный соус», нашёл — почти то же, что в опенсорсе.Параллельно с этим у Anthropic с января 2026 живёт public beta серверной компакции compact_20260112

продолжить чтение

Code with Claude 2026: что Anthropic показали разработчикам на своей конференции

6 мая 2026 года в Сан-Франциско прошла вторая конференция Anthropic для разработчиков — Code with Claude. Площадку для мероприятия в этот раз расширили: в этот раз взяли бывший автосалон SVN West, так как спрос оказался выше. Следующие 2 конференции пройдут в Лондоне и Токио (19 мая и 10 июня), а записи всех докладов должны опубликовать в ближайшее время на YouTube канале Claude Code. Для тех, кто хочет посмотреть все доклады уже сейчас, опубликовал полную запись в ТГК (5+ часов видео).

продолжить чтение

Я просил Claude перестать мне льстить. 16 апреля получил. Беру свои слова назад

16 апреля Anthropic выкатила Claude Opus 4.7. На self-reported бенчмарках - 12 побед из 14. SWE-bench Verified +6.8, MCP-Atlas +14.6, SWE-bench Pro +10.9. Цена та же, 25 за миллион токенов.Через 24 часа

продолжить чтение

Что я вынес из AMA с инженером Anthropic: 12 инсайтов про Claude Code, которые нигде не написаны

Прямо сейчас идет Built with Opus 4.7: a Claude Code hackathon. Было более 20 тысяч заявок, отбор прошли менее 2% и я стал одним из тех, кому посчастливилось попробовать свои силы и получить API токенов на $500 (но об этом в другой раз). Так вот сегодня был AMA с Thariq Shihipar, одним из инженеров, который работает с Claude Code. Не маркетинговый вебинар, а живой разговор с человеком, который сам пишет skills, крутит loops и дебажит CLAUDE.md каждый день. Ниже то, что я записал и проверил на своих проектах.1. Skills, а не агентыГлавный тезис, который Tharik повторил несколько раз: skills это primary extension point для Claude Code. Не агенты, не MCP-серверы, не промпты в CLAUDE.md.

продолжить чтение

Opus 4.7, Codex управляет ПК, TTS от Google, бренд кроссовок «переобулся» в ИИ-компанию

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.Меня зовут

продолжить чтение