GPT-5.4.

Как я превратил Codex в персонального Джарвиса

Эта статья написана от моего лица и отредактирована вместе с Джарвисом.За последние годы я перепробовал много AI-инструментов для разработки: от более “чатовых” сценариев до агентных сред вроде Cursor и Claude. В итоге остановился на Codex. Не потому, что он магический, а потому что это, на мой взгляд, самая сильная система в тот момент, когда ты понимаешь, что именно она делает, где заканчиваются ее возможности и какими рамками ее нужно ограничивать.

продолжить чтение

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента (API/Поиск) -> Чтение -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, галлюцинируют и застревают в бесконечных циклах.Индустрия пытается лечить это экстенсивно: наращивает контекстное окно до миллионов токенов или пишет в системном промпте заклинания вроде «подумай шаг за шагом и будь максимально объективен».

продолжить чтение

Люди набирают 100%, GPT-5.4 — 0,26%, а Google хватило всего лишь 3-бит

Седьмой выпуск еженедельных IT-новостей от OpenIDE: новый бенчмарк AGI, которому модели не смогли угодить, трёхбитная квантизация от Google, ACP-протокол в OpenIDE, GigaChat 3.1 и бесславный конец Sora.Вышел ARC-AGI-3. Люди — 100%, модели — меньше 2%Тест ARC-AGI-3

продолжить чтение

Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%

ARC Prize Foundation опубликовала

продолжить чтение

GPT-5.4 mini, Tesla строит свой TSMC, омары в Китае и $100 за буллинг ИИ

Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.Я Вандер

продолжить чтение

Галлюцинации недели: GPT-5.4, MacBook на M5 Max и 630 строк, которые автоматизируют ML-ресёрч

Очередной флагман от OpenAI с миллионным контекстом, Claude делает code review, Google обновляет свою быструю малютку, новый MacBook для локального инференса. А что Титов?OpenAI

продолжить чтение

OpenAI встроила ChatGPT в Excel и подключила к нему данные Bloomberg, Moody’s и S&P

OpenAI официально представила новую модель GPT-5.4 и специализированный аддон ChatGPT для Excel, предназначенный для глубокой автоматизации офисной работы. Инструмент позволяет строить сложные финансовые модели и использовать данные ведущих мировых провайдеров прямо внутри электронных таблиц.

продолжить чтение