- BrainTools - https://www.braintools.ru -

Очередной флагман от OpenAI с миллионным контекстом, Claude делает code review, Google обновляет свою быструю малютку, новый MacBook для локального инференса. А что Титов?
OpenAI выпустил [1] GPT-5.4 и GPT-5.4 Pro одновременно, что для них нетипично, обычно Pro-версия появляется через пару недель. Это первая модель семейства 5.x, которая объединяет код и интеллектуальные задачи в одном месте. Контекст до 1M токенов, нативный computer use.
Чтобы активировать 1M контекстное окно в Codex, надо прописать в config.toml:
model = "gpt-5.4"
model_context_window = 1000000
model_auto_compact_token_limit = 900000
Но есть нюансы. Контекст в миллион токенов не означает миллион полезных токенов: на 16-32K точность ~97%, на 256-512K падает до 57%, а на 512K-1M уже 36% (источник [3]). Плюс к этому, в Codex после 272K потребление увеличится вдвое [4]. То есть реальный потолок так и остаётся где-то в районе 256K.

Я последний месяц 80% кода пишу с помощью 5.3-Codex, и 5.4 ощущается как логичное продолжение. Следование инструкциям заметно подтянули, код читается естественнее. Ожидаю, что в дизайне/фронтенде она стала получше, но я такие задачи поручаю Opus 4.6. В Codex также появился режим /fast, дающий до 1.5x ускорение генерации в обмен на двойное потребление.
Наконец-то выпустили [5] Codex для Windows с нативным sandbox на уровне ОС (ACL, restricted tokens, выделенные пользователи). Поддержка PowerShell, CMD, Git Bash, WSL. Плюс запустили [6] программу Codex for Open Source: мейнтейнерам крупных проектов дают полгода ChatGPT Pro с Codex, доступ к Codex Security и API-кредиты на автоматизацию ревью и релизов. У Anthropic аналогичная программа [7]: 6 месяцев Claude Max 20x для мейнтейнеров репозиториев с 5000+ звёзд или 1M+ скачиваний в NPM.
И бонус: за неделю OpenAI сбросили [8] лимиты в Codex раза 3-4, каждый раз объясняя это найденным багом. В сообществе это уже стало мемом.

Anthropic запустил [9] Claude Code Review, мультиагентную систему, где параллельные агенты ищут проблемы, верифицируют находки и ранжируют по серьёзности. Внутренние метрики: доля PR с осмысленными комментариями выросла с 16% до 54%, при этом менее 1% находок оказались ошибочными. И тут же в треде Anthropic написали [10], что одно ревью стоит примерно $15-25.
Индустрия пришла к консенсусу: проблема генерации кода решена, узкое горлышко теперь в верификации. Двухагентная архитектура “генератор + ревьюер” становится стандартом, как юнит-тесты когда-то.
Google выкатил [13] Gemini 3.1 Flash-Lite. Регулируемый thinking level [14], где ты сам выбираешь баланс между интеллектом [15] и скоростью. Заявлено больше 360 tok/sec и миллионный контекст. Да, стало дороже по сравнению с предшественником Gemini 2.5 Flash-Lite: $0.25/$1.50 за миллион токенов. Google не пытается конкурировать с флагманами, в собственных бенчмарках модель сравнивают с GPT-5 mini и Claude Haiku, а не с Opus или GPT-5.4. Это рабочая лошадка для пайплайнов: мультимодальный ввод (текст, картинки, видео, аудио, PDF) на высокой скорости вместо самописных парсеров. Я с удовольствием переключил на новую модель свой суммаризатор и переводчик.

Андрей Карпаты выложил [16] autoresearch, репозиторий [17] на ~630 строк. Идея простая: AI-агент в цикле сам меняет параметры, запускает эксперимент, смотрит на результат и пробует снова, без участия человека. За ~700 таких итераций агент нашёл 20 улучшений, которые сократили время обучения [18] GPT-2 на 11%. И улучшения переносятся на модели побольше. Ещё в декабре 2025-го Yi Tay ввёл в оборот [19] термин vibe training для подобного подхода: ты не смотришь, что агент меняет, просто проверяешь метрики. Autoresearch, по сути, первая рабочая реализация этой идеи.

Применяют autoresearch уже не только для обучения: CEO Shopify адаптировал [20] фреймворк для своего проекта qmd [21], прогнал 37 экспериментов за ночь и получил 19% улучшение на модели 0.8B. Сам Карпаты говорит о следующем шаге: распределённые исследования в стиле SETI@home. Кстати, GPT-5.4 xhigh проигрывает [22] Opus 4.6, который спокойно крутит 118 экспериментов за 12+ часов. Проблема подтверждена [23] автором.
Про модели Qwen 3.5 я рассказывал [24] на прошлой неделе, 9B всё ещё трудится на моей машинке. Но на этой неделе важнее другое: команду покинул [25] технический лидер, а за ним ещё несколько ключевых людей, включая Hui Binyuan (lead Qwen Code), который ушёл в Meta. На замену Alibaba наняла Zhou Hao из Google DeepMind. CEO Alibaba Cloud пообещал [26] продолжить open source стратегию, но когда уходят люди, обещания стоят дешевле кода.

Apple представила [27] новые MacBook на M5 Pro и M5 Max. M5 Pro: до 64GB единой памяти [28], 307GB/s пропускной способности памяти. M5 Max: до 128GB, 614GB/s. SSD до 14.5GB/s (вдвое быстрее M4). Главная цифра для нас: обработка промптов LLM до 4x быстрее M4. Для тех, кто гоняет модели локально, это самое значимое обновление года.
Tri Dao выпустил [29] FlashAttention-4, который достигает скорости attention на уровне matmul на Blackwell. Написан на CuTeDSL (встроенный в Python), компилируется за секунды вместо минут. PyTorch интегрировал [30] FA4 в FlexAttention с ускорением 1.2x-3.2x на вычислительно-ограниченных нагрузках. Ссылка [31] для любителей вчитаться в бумаги.
А vLLM выкатил [32] v0.17 с поддержкой FA4, Qwen3.5 GDN, 5.8x ускорением attention на MI300 благодаря новому Triton-бэкенду, и, что интересно, работой [33] на NVIDIA Jetson без облачных API. Локальный инференс без облака это уже не фантазия.
Релиз, который зацепил реакцией [34] сообщества: Microsoft Copilot Cowork [35]. В релизе на сайте написано: “Тесно сотрудничая с Anthropic, мы интегрировали технологию Claude Cowork в Microsoft 365 Copilot”. Так вы же вроде с OpenAI в десна целовались?
В треде с анонсом [36] сразу видно, как пользователи относятся [37] к Copilot.

Арифметика на закуску. На странице Codex [38] видно 5-часовые лимиты GPT-5.4 (недельные OpenAI не раскрывает):
┌─────────┬─────────────────┬───────────┐
│ Вариант │ Лимит сообщений │ Стоимость │
├─────────┼─────────────────┼───────────┤
│ 1× Pro │ 223–1120 │ $200/мес │
├─────────┼─────────────────┼───────────┤
│ 7× Plus │ 231–1176 │ $140/мес │
└─────────┴─────────────────┴───────────┘
Если пользуетесь Codex, можно сэкономить $60. Вот ссылка [39] как это реализовать.
Думайте [40]. И оставайтесь любопытными.
Взгляд инди-хакера на AI и разработку: глубокое погружение в языковые модели, гаджеты и self-hosting через практический опыт [41] в моем телеграм канале [42].
Автор: xonika9
Источник [43]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/26928
URLs in this post:
[1] выпустил: https://openai.com/index/introducing-gpt-5-4/
[2] Image: https://sourcecraft.dev/
[3] источник: https://x.com/cline/status/2029642984351010874
[4] вдвое: https://openai.com/index/introducing-gpt-5-4/#:~:text=usage%20limits%20at-,2x%20the%20normal%20rate,-.
[5] выпустили: https://x.com/OpenAIDevs/status/2029252453246595301
[6] запустили: https://developers.openai.com/codex/community/codex-for-oss
[7] аналогичная программа: https://claude.com/contact-sales/claude-for-oss
[8] сбросили: https://x.com/thsottiaux/status/2031216405266481489
[9] запустил: https://x.com/claudeai/status/2031088171262554195
[10] написали: https://x.com/claudeai/status/2031088175456903667
[11] подхватил: https://x.com/rohanvarma/status/2031113869666693351
[12] добавила: https://x.com/cognition/status/2031139257000075675
[13] выкатил: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/
[14] thinking level: https://ai.google.dev/gemini-api/docs/thinking#thinking-levels:~:text=control%20thinking%20behavior.-,Thinking,-levels%20(Gemini%203)
[15] интеллектом: http://www.braintools.ru/article/7605
[16] выложил: https://x.com/karpathy/status/2031135152349524125
[17] репозиторий: https://github.com/karpathy/autoresearch
[18] обучения: http://www.braintools.ru/article/5125
[19] ввёл в оборот: https://www.latent.space/p/captaining-imo-gold-deep-think-on
[20] адаптировал: https://x.com/tobi/status/2030771823151853938
[21] qmd: https://github.com/tobi/qmd
[22] проигрывает: https://x.com/Yuchenj_UW/status/2031044694441148709
[23] подтверждена: https://x.com/karpathy/status/2031083551387701698
[24] рассказывал: https://gotacat.dev/blog/weekly-ai-hallucinations-pentagon-anthropic-qwen-3-5-claude-identity-crisis#:~:text=%D0%BB%D0%BE%D0%BA%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%BC%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8F%D0%BC.%20Alibaba-,%D0%B2%D1%8B%D0%BF%D1%83%D1%81%D1%82%D0%B8%D0%BB%D0%B0,-Qwen%203.5%2C%20%D0%BF%D0%BE%D0%BB%D0%BD%D1%83%D1%8E
[25] покинул: https://x.com/JustinLin610/status/2028865835373359513
[26] пообещал: https://x.com/poezhao0605/status/2029396117239276013
[27] представила: https://www.apple.com/newsroom/2026/03/apple-introduces-macbook-pro-with-all-new-m5-pro-and-m5-max/
[28] памяти: http://www.braintools.ru/article/4140
[29] выпустил: https://twitter.com/tri_dao/status/2029569881151263082
[30] интегрировал: https://x.com/PyTorch/status/2029617988899381376
[31] Ссылка: https://arxiv.org/abs/2603.05451
[32] выкатил: https://x.com/vllm_project/status/2030178775212671148
[33] работой: https://x.com/vllm_project/status/2030839132512002217
[34] реакцией: http://www.braintools.ru/article/1549
[35] Copilot Cowork: https://www.microsoft.com/en-us/microsoft-365/blog/2026/03/09/copilot-cowork-a-new-way-of-getting-work-done/
[36] треде с анонсом: https://x.com/satyanadella/status/2030992877665583440
[37] относятся: https://x.com/brad3141592653/status/2031008306605506680
[38] странице Codex: https://developers.openai.com/codex/pricing?codex-usage-limits=gpt-5-4#what-are-the-usage-limits-for-my-plan
[39] ссылка: https://github.com/router-for-me/CLIProxyAPI
[40] Думайте: https://res.cloudinary.com/gotacat-dev/image/upload/v1773150989/Gemini_Generated_Image_jjpjoujjpjoujjpj_dc2c963e74.jpg
[41] опыт: http://www.braintools.ru/article/6952
[42] моем телеграм канале: https://t.me/+eOBqt-i-YS4zZTgy
[43] Источник: https://habr.com/ru/news/1008774/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1008774
Нажмите здесь для печати.