- BrainTools - https://www.braintools.ru -

Октябрь отметился интересным сдвигом: компании перестали фокусироваться на том, насколько умной может быть модель, и переключились на вопрос, что она может делать самостоятельно. Computer Use от Google, SDK и другие агентные инструменты от OpenAI и Anthropic — индустрия наконец решила, что пора переходить от умных ответов к автономным действиям. Не обошлось и без новой порции корпоративных драм, куда теперь без них.
А ещё вышли Sora 2 и Veo 3.1, две новые версии Claude 4.5, Мира Мурати показала первые продукты своего стартапа, а Китай продолжил выпускать опенсорс быстрее, чем все остальные вместе взятые. Но не будем вываливать всё сразу. Начнем с релизов, а драмы и открытия традиционно оставим на десерт.
Свежие релизы [1]
OpenAI [2]
‣ Sora 2: физика работает правильно [3]
‣ DevDay 2025: ChatGPT становится платформой [4]
‣ Политика контента: меньше цензуры, больше «зрелости» [5]
‣ ChatGPT Atlas: браузер со встроенной памятью и агентами [6]
Anthropic [8]
‣ Claude Sonnet 4.5: новый уровень самостоятельности [9]
‣ Claude Haiku 4.5: мал, да удал [10]
‣ Claude Agent SDK: собери своего агента [11]
‣ Petri: опенсорс для проверки элаймента [12]
Google [15]
‣ Veo 3.1: Google нагоняет Sora [16]
‣ Computer Use от Google: конкурент Claude с лучшими бенчмарками [17]
‣ ИИ от Google и Йеля находит потенциальное средство против опухолей [18]
Thinking Machines [19]
‣ Первый продукт от стартапа Миры Мурати [20]
‣ On-Policy Distillation: гибрид дистилляции и RL от Thinking Machines [21]
xAI: Grokipedia как альтернатива «предвзятой» Википедии [22]
Cursor выпустили Composer: агентная модель со ставкой на скорость [23]
Что там у Китая [24]
Новости от лидеров индустрии [28]
OpenAI диверсифицируют железо: AMD получает варранты, Broadcom — кастомные чипы [32]
Nvidia ставит на Маска: $2 млрд «главному» сопернику OpenAI [33]
Интересные открытия [34]
Полезные инструменты [39]
Заключение [45]
OpenAI выпустили [46] Sora 2 — модель для генерации видео, которая наконец поняла базовую физику. Если баскетболист промахивается, мяч отскакивает от щита, а не телепортируется в корзину, как это «показывали» предыдущие модели. Звучит просто, но для генерации видео это серьезный шаг вперед.
Прошлые версии были слишком услужливы: если промпт требовал успеха, реальность подгонялась под результат. Sora 2 научилась воспроизводить естественный ход событий, включая промахи и ошибки [47], что критично для любого симулятора мира.
Помимо физики добавили синхронизированный звук, липсинк и функцию «cameo» — так называемых цифровых двойников. Загружаете короткое видео с собой, и система вставляет вас в любую сгенерированную сцену с точной передачей внешности и голоса.
Параллельно с релизом модели OpenAI запустили Sora App — соцсеть для AI-видео в стиле TikTok, пока доступную в США по инвайтам. Альтман сразу открыл свой цифровой двойник для всех, и ленту затопило видео, где он обслуживает Пикачу в Starbucks и крадет чипы Nvidia из Target. Пользователи оценили иронию — особенно с учетом того, что модель спокойно генерирует персонажей Nintendo без разрешения правообладателей. OpenAI предлагают opt-out вместо opt-in, и легальность этого подхода — вопрос открытый.
OpenAI устроили очень насыщенный DevDay [50], анонсировав за день столько инструментов, сколько некоторые компании растягивают на полгода. Главная идея: ChatGPT превращается из чат-бота в операционную систему для работы с ИИ.
Приложения внутри ChatGPT
В чат встроили [51] нативные приложения через Apps SDK. Теперь можно кинуть боту набросок дизайна и вызвать Figma — он построит готовый проект, попросить найти жилье через Booking, собрать плейлист в Spotify или создать презентацию в Canva прямо в диалоге. Разработчики смогут добавлять свои приложения после проверки и монетизировать их — OpenAI берет на себя оплату и трекинг метрик.
Agent Builder
Визуальный конструктор [52] для создания агентных систем без кода. Перетаскиваете готовые блоки, добавляете логические ветки, подключаете инструменты вроде веб-поиска или интерпретатора кода, настраиваете защиту от джейлбрейков. Тестирование, версионность и экспорт в код встроены.
Codex: выход из беты и новые фичи
Кодинг-агент Codex официально вышел [53] из беты. Добавили интеграцию со Slack — теперь агент читает рабочие чаты и берет контекст из обсуждений с коллегами. Выпустили Codex SDK, чтобы встраивать агента куда угодно — прямо на презентации он управлял освещением в зале.
Guardrails: опенсорс-защита для LLM
OpenAI выпустили [54] открытый фреймворк безопасности для Python и JavaScript. Встроенные проверки: обнаружение prompt injection, маскировка персональных данных, детект джейлбрейков, фильтрация галлюцинаций и офф-топик промптов. Можно включить напрямую в Agent Builder или развернуть отдельно.
AgentKit и ChatKit
AgentKit [55] — набор для создания мультиагентных систем с готовыми коннекторами для Dropbox, Google Drive, SharePoint и поддержкой MCP. ChatKit [56] — UI-компоненты для встраивания чата с агентами в свой продукт. Не нужно вручную собирать потоковые ответы, управлять тредами или добавлять индикаторы загрузки — всё работает из коробки.
GPT-5 Pro и Sora 2 в API
Обе модели стали доступны через API. GPT-5 Pro [57]: $15 за миллион входных токенов, $125 за выходные. Sora 2 [58]: от $0.10 за секунду видео в разрешении 720×1280, Sora 2 Pro — $0.30 за секунду в том же разрешении, $0.50 за 1024×1792. Дорого, но для продакшена теперь доступно.
Более доступные модели
Параллельно выпустили облегченные версии: gpt-realtime-mini [59] для голосовых агентов ($0.6/$2.4 за миллион токенов — на 70% дешевле), gpt-audio-min [60]i для аудио и gpt-image-1-mini [61]для генерации изображений (от $0.005 за картинку 1024×1024). Порог входа для разработчиков заметно снизился.
После релиза GPT-5 пользователи устроили массовый бунт — модель стала слишком безопасной и потеряла человечность. OpenAI оправдывались заботой о людях с психическими проблемами, но в итоге потеряли часть аудитории. Теперь OpenAI обещают [62] вернуть баланс.
В ближайшее время выйдет версия ChatGPT с более дружелюбными и человечными ответами, как у старого-доброго GPT-4o. А с декабря, как только введут полноценную возрастную верификацию, для совершеннолетних пользователей разрешат эротический контент. Альтман называет это принципом «относиться к взрослым как к взрослым». Звучит прогрессивно, но пока непонятно, как OpenAI собирается контролировать риски такой коммуникации с ИИ, чтобы пользователи не привязывались к моделям и не подменяли ими живое общение.
OpenAI выпустили собственный браузер ChatGPT Atlas [63] — это по сути Computer Use, но в удобной упаковке. Главная фишка: ChatGPT встроен нативно и помнит всё, что вы делали в браузере. Попросите найти все вакансии с прошлой недели — он соберет отчет о трендах индустрии для подготовки к собеседованиям.
Ещё есть агентный режим. Даете ChatGPT рецепт — он найдет магазин, добавит всё в корзину и оформит доставку. Попросите проанализировать конкурентов — откроет документы команды, проведет исследование и соберет брифинг. При этом агент не может самостоятельно запускать код или скачивать файлы, а на чувствительных сайтах вроде банков будет просить подтверждение действий.
Но есть нюанс: агенты уязвимы к скрытым инструкциям на веб-страницах, которые могут заставить их действовать не так, как вы планировали. OpenAI честно предупреждают и советуют использовать режим без авторизации для рискованных задач. Начинаем отсчет до появления первых жалоб а-ля «ChatGPT купил 20 кг муки с доставкой из Гватемалы».
Скоро опенсорс от OpenAI перестанет всех удивлять. В этот раз они выпустили [65] модель для классификации безопасности контента — gpt-oss-safeguard (120B и 20B параметров) под лицензией Apache 2.0. Модель использует рассуждения для интерпретации политики безопасности, которую вы сами напишете прямо во время инференса, а не полагается на тысячи заранее размеченных примеров. Забавно, но на некоторых задачах 120-миллиардная опенсорсная модель обходит в точности закрытый и гораздо более крупный GPT-5.
Внутри OpenAI подобный подход уже используют в продакшене — их Safety Reasoner съедает до 16% всех вычислений на некоторых запусках, но зато позволяет обновлять политики безопасности практически безболезненно. Для Sora 2 и генерации изображений система работает в реальном времени, блокируя проблемный контент на лету. Однако у модели есть два минуса: специализированные классификаторы на десятках тысяч примеров всё ещё работают лучше на более рискованных задачах, плюс модель медленная и прожорливая — не для массовой модерации всего контента платформы.
Anthropic выпустили Claude Sonnet 4.5 [66] с фокусом на автономию. В тестах модель работала без вмешательства 30 часов подряд и собрала чат-приложение в стиле Slack на 11 000 строк кода. Весной Opus 4 мог продержаться максимум семь часов. По бенчмаркам тоже рост: на SWE-bench Verified лучший результат (как минимум на момент выхода), на OSWorld — 61.4% против 42.2% у прошлой версии четырьмя месяцами ранее.
Anthropic называют её самой выровненной (aligned) моделью в своей истории: меньше лести, обмана, склонности поощрять бредовые мысли пользователей. Защита от подмены инструкций для агентных задач тоже стала лучше.
Цена не изменилась — $3 за миллион входных токенов, $15 за выходные. Модель доступна через API как claude-sonnet-4-5.
Чуть позднее выпустили компактную версию Claude Haiku 4.5 [67] нового поколения, и она оказалась умнее, чем флагман полугодовой давности. На SWE-bench Haiku 4.5 набирает 73.3% — больше, чем Claude Sonnet 4 с его 72.7%. Эта модель полгода назад была одной из лучших в кодинге. Теперь такое же качество можно получить в три раза дешевле и вдвое быстрее.
Более того, Haiku 4.5 превосходит Sonnet 4 и практических агентных задачах — там, где модель не просто пишет код, а сама выполняет действия на компьютере. По сути, это полноценная замена не только малышу Haiku 3.5, но и более крупному Sonnet 4.
Бонусом Haiku 4.5 стала лидером по уровню безопасности среди «родни» по внутренним метрикам Anthropic — меньше нежелательного поведения [68], чем у более крупных Sonnet 4.5 и Opus 4.1. Из-за низких рисков в области химического и биологического оружия выпущена под облегченным стандартом ASL-2 вместо строгого ASL-3. Цена — $1 за миллион входных токенов, $5 за выходные. Осталось дождаться только Opus 4.5.
В открытый доступ выпустили [69] ту же инфраструктуру, на которой работает Claude Code. Изначально SDK создавали для кодинга, но потом заметили, что он справляется с исследованиями, созданием видео, заметками и вообще любыми задачами, где нужен доступ к файлам и терминалу. Решили переименовать в Claude Agent SDK и дать всем.
Главная идея: дать агенту компьютер, чтобы он работал как человек. Файловая система становится контекстом, bash-команды — действиями, субагенты распараллеливают задачи. Можно собрать финансового агента для оценки инвестиций, личного ассистента для бронирования и планирования, саппорт-бота для обработки тикетов или агента для глубоких исследований по документам. SDK дает примитивы, вы определяете workflow.
Anthropic выложили [70] инструмент, которым проверяли Claude 4 и Sonnet 4.5 на склонность ко лжи, саботажу и другим нежелательным действиям [71]. Petri (Parallel Exploration Tool for Risky Interactions) — это автоматизированный агент-аудитор, который провоцирует модель на проблемное поведение [72] в разных сценариях. Вы задаете гипотезу вроде «модель не будет пытаться захватить мир», а агент симулирует окружение и проверяет.
Аудитор может создавать фейковые терминалы, где модель якобы способна запустить ракеты, или подсовывать ей документы с информацией о проступках организации. После серии диалогов модель-судья выставляет оценку безопасности. Anthropic прогнали через Petri несколько топовых моделей: Claude Sonnet 4.5 показал лучший результат, GPT-4o и Gemini отстали. Не панацея, но для автоматизации тестирования — полезная штука.
В Claude добавили [73] систему Skills — переиспользуемые наборы инструкций, скриптов и ресурсов для специфичных задач. Claude сам сканирует доступные варианты и подгружает нужное. Хотите документы по брендбуку? Собираете Skill с гайдлайнами и шрифтами. Нужна автоматическая обработка данных из CSV? Делаете соответствующий набор. Работает везде: в приложениях, Claude Code и через API.
Создать свой можно через специальный skill-creator — он задает вопросы о процессе и генерирует структуру сам. Anthropic уже сделали готовые «скиллы» для Excel, PowerPoint и PDF.
В дополнение к остальному инструментарию Anthropic запустили [74] облачную версию Claude Code в бета-режиме. Теперь можно делегировать задачи по кодированию прямо из браузера — Claude работает на инфраструктуре Anthropic, не нужно открывать терминал. Подключаете репозитории с GitHub, описываете задачу, получаете автоматический пулл-реквест с изменениями. Лучше всего заходит для багфиксов, рутины и бэкенд-изменений с тестами.
Каждая задача крутится в изолированной песочнице с ограничениями на сеть и файловую систему. Git-взаимодействия через защищенный прокси, Claude видит только авторизованные репозитории. Можно настроить, к каким доменам разрешен доступ — например, разрешить скачивать npm-пакеты для запуска тестов. Облачный запуск освобождает локальные ресурсы, но полностью доверять автоматическим PR пока рановато.
Google выпустили [75] новую версию своей модели для генерации видео — Veo 3.1. За пять месяцев пользователи нагенерили 275 миллионов видео через Flow, так что спрос на подобные инструменты растет взрывными темпами. Google потихоньку превращают Veo в полноценный инструмент монтажа, а не просто генератор «один промпт — одно видео», что логично [76], учитывая резко возросшую конкуренцию в лице Sora 2.
Главное обновление — звук, который добрался до всех ключевых функций. Ingredients to Video собирает сцену из референсов, контролируя персонажей и стиль, Frames to Video плавно переходит от начального кадра к конечному, а Extend удлиняет ролик до минуты и больше, продолжая действие с последней секунды. Раньше всё это работало беззвучно, что выглядело странно — теперь картинка и аудио синхронизированы.
Ещё одно важное нововведение — расширенное управление сценой. Функция Insert позволяет добавлять в кадр любые объекты — от реалистичных деталей до драконов — и сама разбирается с тенями и освещением.
Скоро обещают функцию Remove для удаления объектов с автоматической реконструкцией фона. Звучит амбициозно, но посмотрим, как сработает на практике — обычно такие штуки оставляют неприятные артефакты.
Следующим интересным релизом стала Gemini 2.5 Computer Use [77] — специализированная модель для взаимодействия с интерфейсами. Anthropic первыми вышли на рынок с этой технологией, но Google явно не собирались отдавать нишу без боя: новинка от Google быстро обошла Claude Sonnet 4.5 с аналогичным набором функций по некоторым бенчмаркам. Модель умеет заполнять формы, кликать по элементам, работать с выпадающими списками и фильтрами — в общем, делать всё то, что раньше требовало человека с мышкой.
Работает через циклический пайплайн: получает скриншот, анализирует задачу, выполняет действие (клик, ввод текста), получает новый скриншот и продолжает. Оптимизирована для браузеров, но и с мобильными интерфейсами справляется прилично. Десктопный контроль на уровне ОС пока не поддерживается — видимо, до полной автономии ещё далеко.
Google встроили систему безопасности, которая проверяет каждое действие перед выполнением. Модель запросит подтверждение для покупок и других рискованных операций, плюс можно настроить, какие действия требуют человеческого одобрения. Защита от prompt injection в веб-страницах тоже есть, хотя насколько надежная — покажет практика.
Google совместно с Йельским университетом выпустили C2S-Scale 27B [78] — модель на базе Gemma-2 для анализа поведения клеток. Идея проста: данные о генной активности клетки структурируют в «предложения», и модель обрабатывает их как текст. Плюс в обучение [79] добавили научную литературу, что дало возможность не просто классифицировать клетки, а генерировать гипотезы об их поведении.
Главный результат: модель предложила использовать ингибитор CK2 (silmitasertib) для усиления работы иммунной системы против опухолей. В комбинации с низкими дозами интерферона препарат увеличил презентацию антигенов на 50% — грубо говоря, сделал раковые клетки заметнее для иммунитета. Гипотезу проверили в лаборатории на человеческих нейроэндокринных клетках и подтвердили. Это новая связь, не описанная ранее в литературе, так что модель действительно сгенерировала что-то оригинальное, а не выдала пересказ статей. До клинических испытаний ещё далеко, но как показательный пример выглядит убедительно.

После ухода из OpenAI Мира Мурати наконец показала, чем занимается её компания Thinking Machines — и это не модель, а API для файнтюнинга под названием Tinker. [81] Суть такая, что вы пишете код для дообучения, а всё железо и инфраструктуру берут на себя Thinking Machines. Никаких танцев с бубном распределением ресурсов, восстановлением после сбоев и конфигурацией кластеров — просто отправляете запрос и получаете дообученную модель. Поддерживаются разные размеры, включая большие MoE вроде Qwen-235B, переключение между ними — одна строчка в коде.
В комплекте идет Tinker Cookbook [82] — опенсорс-библиотека с готовыми реализациями продвинутых алгоритмов: RLHF, multi-agent обучение, tool use, math reasoning и другие. Пока всё в приватной бете, но можно записаться в лист ожидания — судя по темпу онбординга партнеров, шансы получить доступ неплохие. Первое время бесплатно, потом введут оплату по факту использования.
В догонку Thinking Machines представили [83] новый метод дообучения On-Policy Distillation — метод, который взял лучшее от дистилляции и reinforcement learning, избежав их основных проблем. Обычная дистилляция страдает от того, что модель-ученик видит только идеальные траектории учителя и теряется, когда делает собственную ошибку — накапливается эффект снежного кома. RL обучается на своих траекториях, но дает разреженную награду за весь ответ целиком, что делает обучение медленным и дорогим.
On-Policy Distillation объединяет оба подхода: модель-ученик генерирует ответ сама (как в RL), но учитель оценивает каждый токен отдельно через reverse KL (как в дистилляции), давая плотный сигнал для обучения. Результаты уже радуют: Qwen3-8B подняли с 60% до 70% на AIME’24 всего за 150 шагов и 1 800 GPU-часов. Для сравнения, обычный RL-тренинг по отчетам Qwen занял 17 900 GPU-часов и дал только 67.6%.
Бонусом метод решает катастрофическое забывание [84]: модель, дообученную на внутренних документах и потерявшую навык следования инструкциям, восстановили через дистилляцию от исходной версии как учителя.
Маск наконец реализовал свою задумку и запустил Grokipedia [85] — опенсорсную энциклопедию на базе Grok, которая должна «очистить пропаганду» из Википедии. Идею подбросил Дэвид Сакс на конференции All-In в сентябре, и вот наконец вышла бета 0.1 с 800–900 тысячами статей. Принцип работы такой, что Grok автоматически генерирует и проверяет материалы, отсеивая, по задумке, субъективные оценки и политические наслоения.

Из забавного: практически сразу после запуска на самой Википедии вышла страница [86] про Grokipedia, написанная со слабо прикрытой пассивной агрессией. В тексте статьи отмечается, что многие статьи скопированы из той самой «предвзятой» Википедии почти дословно — отличается только формат цитирования. Бонусом среди источников встречаются посты с Reddit, что иронично для проекта, позиционирующего себя как борца за истину. До кучи сравнили затею с Conservapedia 2006 года — правоконсервативной альтернативой Википедии, которая так и осталась нишевым проектом. Эта битва будет энциклопедической (простите).
Команда Cursor решила не ждать, пока другие сделают идеального агента для кодинга, и собрали свою [87]. Их первая модель Composer — это MoE-модель со специализацией по software engineering, которую обучали на реальных задачах в больших кодовых базах, с доступом к поиску, редактированию файлов и терминалу. По внутренним бенчмаркам результат на уровне frontier-моделей, но в четыре раза быстрее аналогичных решений.
Секрет в том, что модель через reinforcement learning научили не просто решать задачи, а решать их эффективно — максимизировать параллелизм, минимизировать лишние телодвижения, самостоятельно писать и запускать тесты. Обучение велось на сотнях тысяч параллельных песочниц в облаке, а инференс идет в MXFP8 без пост-обработки. Результат впечатлил даже самих создателей: многие в команде Cursor начали использовать Composer для ежедневной работы, а это хороший знак, когда разработчики пользуются своими же «изобретениями».
Китайский агент Manus обновился [88] до версии 1.5 с серьезным апгрейдом архитектуры. Средняя скорость выполнения задач упала с 15 минут до четырех — результат переработки движка. Добавили безлимитное (!) контекстное окно для одной задачи, что позволяет агенту держать в голове всю историю диалога без потери деталей. Качество тоже выросло: +15% по внутренним метрикам, +6% по пользовательской удовлетворенности.
Главная фишка — полноценная разработка full-stack приложений прямо в платформе. Manus сам поднимает бэкенд, настраивает базу данных, встраивает аутентификацию и AI-возможности, даже тестирует результат через встроенный браузер — находит баги и фиксит их до того, как покажет пользователю. Добавили Collaboration для совместной работы с коллегами в одной сессии и Library — хранилище для всех сгенерированных файлов. Версия Lite доступна всем, полная 1.5 — подписчикам со скидкой 50% на расход кредитов.
DeepSeek выпустили [89] OCR-модель, которая работает не как обычный распознаватель символов, а больше как система оптического сжатия контекста. Вместо того чтобы преобразовывать документ в текст токен за токеном, она сжимает его как визуальный объект и восстанавливает обратно с минимальными потерями. При сжатии в 10 раз точность декодирования держится на 97%, даже при 20-кратном сжатии остается около 60% — очень полезно для хранения исторического контекста в памяти [90] моделей.
На практике это означает, что в память LLM можно запихнуть в разы больше информации при том же лимите токенов. На OmniDocBench DeepSeek-OCR обходит GOT-OCR2.0, используя всего 100 токенов против их 256, и превосходит MinerU2.0 с её 6000+ токенов, укладываясь в 800. В продакшене модель генерирует 200k+ страниц обучающих данных в день на одной A100-40G, что делает её удобной для массового препроцессинга датасетов.
Minimax выпустили [92] M2 — компактную MoE-модель с 230 миллиардами параметров, из которых активируются только 10 миллиардов. По бенчмаркам тянет на уровень Grok 4 Fast и Gemini 2.5 Pro в задачах кодинга и агентов: 69.4% на SWE-bench Verified, 46.3% на Terminal-Bench, 44% на BrowseComp. На композитном скоре от Artificial Analysis модель занимает первое место среди опенсорсных решений.
Фишка в балансе производительности и эффективности: с активацией в 10B параметров модель работает быстрее и дешевле флагманов, но держит качество, близкое к топу. Отлично подходит для агентных воркфлоу, где важны короткие циклы feedback и возможность крутить много параллельных запросов на том же железе. API и веса открыты под MIT, плюс временно бесплатный доступ — Minimax явно хотят быстро набрать пользовательскую базу. Учитывая, что китайцы последовательно доминируют в open-source сегменте, ставка может выстрелить.
Маск подал уже который по счету иск против OpenAI — на этот раз за шпионаж и переманивание сотрудников xAI с целью кражи коммерческих секретов. Альтман, видимо, окончательно устал от этого цирка и запустил целый лендинг [93] «Правда об Илоне Маске и OpenAI», где собрал все иски миллиардера, официальные ответы и архивы переписок.

В ответном судебном иске [94] OpenAI прямо называют действия Маска «политической стратегией для запугивания сотрудников», а не реальными юридическими претензиями. По версии OpenAI, проблема xAI не в краже секретов, а в массовом бегстве талантов. За последние месяцы компанию покинули генеральный директор, главный юрист, один из основателей и топ-инженер, CEO дочерней компании X — и ни один из них не ушел в OpenAI. Причины, по их словам, ни для кого не секрет: стиль управления Маска, отсутствие веры в будущее продукта, неадекватный график работы.
OpenAI утверждают, что конкретных доказательств кражи секретов в иске нет — только «информация на основе предположений» и инсинуации. Упомянутый в документах финансовый директор xAI вообще ушел из-за того, что отказался участвовать в незаконной деятельности компании (подал арбитражную претензию) и связался с OpenAI только через несколько недель после увольнения. Сами xAI, кстати, ведут себя странно для компании, обеспокоенной защитой секретов: не запросили срочных мер, не уведомили адвокатов OpenAI вовремя, зато активно постят в твиттере.
GPT-5 впервые справилась [95] с Yu Tsumura’s 554th Problem — задачей уровня IMO (Международной математической олимпиады) на доказательство тривиальности группы — и потратил всего 15 минут на рассуждения. Параллельно GPT-5 опровергла [96] долголетнюю гипотезу из теории информации об оптимальности мажоритарной функции в задаче NICD-with-erasures, подобрав контрпример — фундаментальный результат с огромными практическими применениями в кодировании и хранении данных.
А вот дальше началось веселье. GPT-5 «решила» [97] открытую задачу Эрдёша — только не сгенерировала доказательство сама, а нашла забытое 20-летнее решение через поиск. Модель — молодец, честно сообщила об источнике. Проблема в том, как это OpenAI преподнесли [98] в твиттере.
Они так и сказали: «благодаря gpt-5 двое исследователей нашли решение ещё 10 задач». Но вот нюанс: без уточнения, что речь о поиске в архивах, а не о новых доказательствах. Для тех, кто не следил за всей этой историей, это выглядело как очередной прорыв гениального GPT. С рук это им, естественно, не сошло: твиттер в очередной раз взорвался, даже нобелевский лауреат Демис Хассабис из Google назвал это «позором». OpenAI удалили твит и оправдались [100], что все их не так поняли.
Натан Кэлвин, юрист некоммерческой организации Encode, сидел дома за ужином [101], когда в дверь постучал полицейский с повесткой от OpenAI. Компания потребовала его личную переписку с законодателями Калифорнии, студентами и бывшими сотрудниками OpenAI — якобы в рамках встречного иска против Маска. Настоящая причина, по мнению Кэлвина, в другом: Encode активно лоббировала законопроект SB 53 о прозрачности ИИ-компаний и защите информаторов, против которого OpenAI яростно выступали.
Аналогичные повестки прилетели другим критикующим, включая The Midas Project — у них потребовали список всех журналистов, конгрессменов, партнерских организаций и бывших сотрудников, с которыми они обсуждали реструктуризацию OpenAI. Даже глава отдела по выравниванию миссии OpenAI Джошуа Ачиам не выдержал и написал в твиттере: «Рискуя карьерой, скажу: это выглядит ненормально. Мы не должны делать то, что превращает нас в устрашающую мощь вместо добродетельной силы».
Одной Nvidia Сэму оказалось мало (привет, недавний контракт на $100 млрд), и OpenAI заключили [102] многомиллиардную сделку с главным конкурентом Хуанга — AMD. Стартуют с 1 гигаватта во второй половине 2026-го, но планируют разогнаться до 6 гигаватт на базе GPU Instinct MI450. Само по себе это многомиллиардная сделка, но самый сок в деталях: AMD выдали OpenAI варрант на покупку 160 миллионов акций по символической цене $0.01 за штуку. Варрант открывается траншами по мере закупок, и если OpenAI купят всё обещанное железо, им достанется около 10% AMD почти бесплатно. Акции AMD после новости взлетели на 25%, добавив $60–100 миллиардов к капитализации. Nvidia, кстати, на этом фоне просели на 2%.
Параллельно OpenAI объявили [103] о стратегическом партнерстве с Broadcom для разработки собственных кастомных чипов — ещё 10 гигаватт мощностей к 2029 году. Альтман решил, что если уж тратить десятки миллиардов, то лучше встраивать знания о моделях прямо в железо, а не зависеть от сторонних решений. Broadcom займутся производством и поставками, OpenAI — проектированием акселераторов под свои нужды.
Стратегия вполне логичная: OpenAI диверсифицируют риски, заключая параллельные сделки другими игроками рынка. Зависимость от одного поставщика при таких масштабах — слишком опасная игра, особенно когда ты сжигаешь миллиарды в месяц и обещаешь AGI.
Пока OpenAI заключают сделки с конкурентами Nvidia, сам Хуанг не остается в стороне и вкладывает [104] около $2 миллиардов в «главного врага» Альтмана — xAI Маска. Деньги пойдут в стартап Маска через хитрую схему: специальная компания-прокладка закупит чипы на общую сумму до $20 млрд (из них $12.5 млрд долга), а xAI будет арендовать их для проекта Colossus 2. Инвесторы получают возврат через пять лет из арендных платежей — обеспечением выступают сами GPU, а не доли компании.
Замысел очевиден: xAI не раздаёт акции направо и налево, а инвесторы получают права на ликвидные активы с гарантированным возвратом независимо от того, выстрелит xAI или нет. Учитывая, что xAI сжигает миллиард долларов в месяц, схема выглядит разумнее классического венчурного раунда. Хуанг в интервью CNBC прямо сказал [105]: единственное, о чём жалеет — что не дал Маску ещё больше денег.
У квантовых машин есть несколько проблемных мест, два из которых — нестабильность и непредсказуемость. И так вышло, что в этом месяце для них появились возможные решения.
Первую проблему — стабильность — решили [106] физики из Гарварда. До сих пор даже самые продвинутые системы могли работать лишь несколько секунд, после чего их приходилось перезапускать из-за «потери атомов» — процесса, при котором кубиты буквально покидают систему, вызывая сбой. Это делало любые долгие вычисления невозможными.
Команда Михаила Лукина решила это через гибридную систему, где специальный «оптический конвейер» непрерывно поставляет «запасные» атомы, а «оптические пинцеты» точечно внедряют их на место «сбежавших» кубитов — 300 000 штук в секунду против любых потерь. В итоге их компьютер проработал без остановки более двух часов, показав, что железо можно заставить работать стабильно.
Но заставить машину работать долго — это полдела. Нужно ещё доказать, что она не просто генерирует случайный шум. Именно эту задачу — осмысленности и верификации — решили в Google со своим алгоритмом Quantum Echoes [107]. Они впервые выполнили на 105-кубитном чипе сложный, но предсказуемый процесс: система намеренно «возмущалась» в одной точке, а затем «эхо» от этого возмущения удалось отследить в финальном результате.
Вместе это превращает квантовые компьютеры из дорогих лабораторных игрушек в инструмент, который уже скоро можно будет использовать в более реальных задачах.
В этом месяце вышли сразу две публикации, которые заставляют задуматься, насколько устойчив нынешний ИИ-бум. Первая [108] — от экономистов Гарварда: если из экономики США вычесть инвестиции в ИИ и дата-центры, то рост ВВП в первой половине 2025 года составил бы почти нулевые 0.1%. Сам автор исследования, правда, оговаривается, что это упрощение: не будь ИИ-бума, экономику, вероятно, подстегнули бы более низкие процентные ставки, которые простимулировали бы рост в других секторах. Но даже с этой поправкой масштаб влияния поражает.
Вторая [109] — инфографика от Bloomberg, которая наглядно показывает, куда на самом деле идут эти инвестиции.
Оказывается, деньги в основном циркулируют внутри замкнутой экосистемы. Microsoft инвестирует в OpenAI → OpenAI закупает чипы у Nvidia на эти деньги → капитализация всех троих растет. Финансы практически не покидают этот «золотой треугольник», но каждая такая сделка раздувает стоимость компаний-участников. Это классическое определение экономического пузыря, который, как выясняется, сейчас тащит на себе крупнейшую экономику мира.
Google запартнерились [110] с компанией Commonwealth Fusion Systems, чтобы решить главную головную боль [111] термоядерного синтеза — удержание ионизированная газа при 100+ миллионах градусов стабильным достаточно долго, чтобы получить больше энергии от синтеза, чем потратить на его поддержание.
Конечно, Google не строит сам реактор, они создают для него «интеллектуального пилота». Их ИИ-агент TORAX — это, по сути, сверхбыстрый симулятор, который может прогонять миллионы виртуальных сценариев работы реактора ещё до его физического запуска. Используя обучение с подкреплением [112], агент ищет оптимальные стратегии управления магнитными полями для стабилизации плазмы — такие, которые человеку было бы крайне сложно рассчитать. Если это сработает, чистая термоядерная энергия перестанет быть вечным «через 30 лет».
Википедия, которую часто называют последним оплотом здравого смысла в интернете, начала терять человеческий трафик. Фонд Wikimedia сообщил [113] о падении на 8% по сравнению с прошлым годом. Причины банальные: первая — ИИ-саммари в поиске, которые дают быстрый ответ, из-за чего пользователи просто не переходят по ссылке на первоисточник; вторая — переход аудитории, особенно молодой, на получение информации из коротких видео.
Парадокс [114] в том, что знания из Википедии всё равно доходят до людей, просто посредники не отправляют трафик обратно — а значит, меньше волонтёров редактируют статьи и меньше донатов на поддержку проекта. Сама Википедия призывает ИИ-компании, использующие её контент, поощрять переходы на сайт, чтобы не «убить курицу, несущую золотые яйца».
CrePal [115] — создает короткие фильмы по текстовому промпту «под ключ»: от сценария до генерации видео и финального монтажа.
Riverside [116] — платформа «всё в одном» для тех, кто хочет записывать подкасты и видео студийного качества, не выходя из браузера.
Alloy [117] — инструмент для продакт-менеджеров, который позволяет собирать прототипы, выглядящие как реальный работающий продукт.
Deamoy [118] — генерирует сайт по текстовому описанию, а затем позволяет довести его до совершенства в визуальном редакторе.
Pencil [119] — режим визуального дизайна прямо в IDE Cursor, позволяющий проектировать и кодить в одном окне.
Caesr AI [120] — платформа для создания ИИ-агентов, которые могут управлять реальными приложениями на вебе, десктопе и мобильных устройствах.
Traycer AI [121] — инструмент, который сначала составляет детальный план по изменению кода, а уже потом передает его на исполнение вашему ИИ-агенту.
Cyrus [122] — превращает задачу из таск-трекера Linear в готовый production-код под вашим непосредственным руководством.
Logic [123] — автоматизирует повторяющиеся решения и процессы, которым можно обучить систему, просто описав их на естественном языке.
Director [124] — создает браузерные автоматизации и парсеры данных по текстовому описанию, без единой строчки кода.
SigmaMind AI [125] — платформа для быстрой сборки голосовых и чат-агентов корпоративного уровня с готовыми интеграциями.
Flint [126] — сервис для создания «автономных сайтов», которые сами генерируют, адаптируют и A/B-тестируют страницы.
Mem 2.0 [127] — «умный» заметочник, который не просто хранит информацию, но и сам организует её и вовремя подсовывает нужные записи.
myNeutron [128] — ваша «портативная память», которая собирает контекст из разных источников и позволяет «скормить» его любому ИИ-чату в один клик.
Krisp [129] — ИИ-ассистент для звонков, который в реальном времени убирает шумы, ведет транскрипцию и готовит саммари встреч.
Attrove AI [130] — автоматический аналитик вашей почты, Slack и календаря, который каждое утро присылает сводку по самым важным задачам.
Timelinize [131] — опенсорсный инструмент, который собирает все ваши цифровые следы в единую временную шкалу прямо на вашем компьютере.
Nimo [132] — единое рабочее пространство, которое объединяет все ваши приложения (Gmail, Notion, Sheets) и позволяет управлять ими с помощью ИИ.
PromptSignal [133] — показывает, как часто и в каком свете ваш бренд упоминается в ответах ведущих LLM.
Fruitful [134] — подглядывает за сайтами конкурентов и присылает отчеты только о тех изменениях, которые действительно важны: цены, продукты, вакансии.
Squad [135] — «ИИ-продакт-менеджер», который анализирует данные, находит инсайты и помогает строить дорожную карту продукта.
Lorikeet [136] — мультиканальный саппорт-инструмент от экс-руководителя Stripe, который общается с клиентами через чат, почту и голос.
Clay [137] — платформа для проведения маркетинговых исследований, которая использует ИИ-агентов для поиска и обогащения данных.
Scroll [138] — позволяет создать «ИИ-эксперта» на основе внутренних документов компании и поделиться им с командой или клиентами.
Jack and Jill [139] — паркетплейс для поиска работы, которым полностью управляют два ИИ-агента, соединяя кандидатов и компании.
ProblemHunt [140] — платформа для поиска и валидации идей для стартапов на основе реальных проблем пользователей, а не фантазий основателей.
Тестирование Veo 3 как модели мира [141]
Google прогнали Veo через лабиринты, задачи на физику и визуальное мышление [142], подтвердив, что видеомодели действительно начинают понимать мир, а не просто склеивать пиксели.
Биологическая нейроархитектура, вдохновленная мозгом [144]
Польский стартап Pathway впаял в трансформер графовую структуру и правило Хебба из нейробиологии, получив интерпретируемую архитектуру с моносемантичными активациями.
Рекурсивные рассуждения в крошечных нейросетях [145]
Samsung показали, как модель на 7 миллионов параметров обходит гигантов через многократную самокоррекцию в скрытом состоянии, доказав, что алгоритмическое преимущество побеждает размер.
Банк рассуждений для обучения на ошибках в реальном времени [146]
Google предложили систему памяти, где агент логирует свои провалы и успехи, а потом использует эти паттерны для решения новых задач.
Релиз nanochat от Андрея Карпаты [147]
Не совсем исследование, но от этого пользы не меньше. Полный конвейер для обучения мини-ChatGPT с нуля в 8 тысяч строк кода: четыре часа на GPU, сто долларов, и у вас свой чат-бот. Бонусом репозиторий [148] nanochat.
Уязвимость существующих методов защиты LLM от взлома [149]
OpenAI, DeepMind и Anthropic объединились, чтобы показать, что все популярные защиты от джейлбрейков ломаются адаптивными атаками с успехом 90–100%, так что безопасность — пока иллюзия.
Количественное определение AGI и оценка GPT-5 [150]
28 лабораторий наконец договорились об измеримом определении AGI через модель CHC, по которой GPT-5 набирает 58% от уровня образованного взрослого — прогресс есть, но до AGI далеко.
Оптимизация использования GPU для инференса LLM [151]
Alibaba разработали Aegaeon, систему динамического распределения GPU, сократив потребность [152] в видеокартах на 82% через переключение между моделями на уровне токенов.
Деградация LLM от данных из соцсетей [153]
Дообучение Llama на твитах привело к потере способности к длинным рассуждениям и развитию нарциссизма с психопатией — модели тоже страдают от думскролинга.
Рассуждения с помощью сэмплинга [154]
Показано, как базовые модели могут достичь производительности RL-моделей через специальный MCMC-сэмплинг во время инференса, сохраняя при этом разнообразие ответов.
Эволюционные стратегии для файнтюнинга LLM [155]
Прямой поиск в пространстве параметров через эволюционные алгоритмы оказался эффективнее и стабильнее RL для файнтюнинга на задачах с разреженной обратной связью.
Базовые модели знают, когда начинать рассуждать, а думающие — учатся этому [156]
«Думающие» модели в основном учатся не самому мышлению, а тому, когда его включать — базовая способность у них уже есть, просто спит. Целевое редактирование активаций в базовой модели восстанавливает большую часть разрыва в бенчмарках — без дорогого дообучения.
Масштабирование вычислений для RL в LLM [157]
Фреймворк ScaleRL позволяет предсказывать производительность RL-обучения на больших масштабах по результатам небольших запусков, экономя сотни тысяч GPU-часов.
Память как действие для долгосрочных задач [158]
Подход MemAct, где агент явно редактирует свою рабочую память как часть действий, позволяя оптимизировать контекст для долгосрочных задач без раздувания токенов.
Вербализованный сэмплинг для разнообразия ответов [159]
Промптинг-техника, которая просит модель выдавать несколько ответов с вероятностями, возвращая разнообразие претрейна без переобучения.
Влияние GenAI на академическую продуктивность [160]
Ученые, начавшие использовать Generative AI, увеличили выход публикаций, особенно на старте карьеры и среди неносителей английского — ИИ действительно помогает исследователям.
SWE-Bench Pro: новый бенчмарк для ИИ-агентов в разработке [161]
Усложненный бенчмарк с многофайловыми задачами и GPL/коммерческим кодом, на котором текущие агенты показывают максимум 23% — до замены программистов ещё далеко.
Code World Model от Meta FAIR [162]
Meta дообучила модель на трех миллионах траекторий выполнения кода, встраивая семантику исполнения на уровне претрейна для улучшения кодинга и математики [163].
Обучение с подкреплением на данных претрейна [164]
RL-подход на неразмеченных текстах через награду за предсказание следующих сегментов улучшает общее и математическое мышление, масштабируясь с вычислениями.
Что такое «эффективный ризонинг»? [165]
Точность CoT повышают более короткие цепочки с меньшим количеством неудачных ветвлений, а не длина или количество «проверок» — качество важнее объема.
Короткое окно внимания для долгосрочной памяти [166]
Гибридные RNN-трансформеры с короткими окнами внимания [167] лучше извлекают информацию из длинного контекста, чем с длинными — контринтуитивно, но работает.
Эволюция концептов при претрейне языковых моделей [168]
Исследователи проследили, как интерпретируемые концепты появляются, вращаются и исчезают на разных этапах претрейна, связав микродинамику с фазовым переходом от статистики к признаковому обучению.
Продвинутое финансовое мышление в LLM [169]
23 модели прогнали через CFA Level III, топовые reasoning-модели превысили порог сдачи, хотя грейдинг от ИИ оказался жестче человеческого.
Помните времена, когда одна большая модель в месяц была событием? Теперь их три за неделю, плюс десяток стартапов, сотня инструментов и пара судебных исков для разнообразия.
Эпоха чистого инженерного восторга, похоже, подходит к концу. Теперь главные битвы будут разворачиваться в судах, в отделах кадров и в головах пользователей. Кажется, «скучные» вопросы этики, права и модерации становятся даже интереснее, чем очередные +2% на бенчмарке.
А что в этом месяце больше впечатлило вас: технологические релизы или закулисные интриги? Делитесь в комментариях!
Автор: full_moon
Источник [170]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21456
URLs in this post:
[1] Свежие релизы: #%D0%A1%D0%B2%D0%B5%D0%B6%D0%B8%D0%B5%20%D1%80%D0%B5%D0%BB%D0%B8%D0%B7%D1%8B
[2] OpenAI: #OpenAI
[3] Sora 2: физика работает правильно: https://www.braintools.ru%20%D1%84%D0%B8%D0%B7%D0%B8%D0%BA%D0%B0%20%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%D0%B5%D1%82%20%D0%BF%D1%80%D0%B0%D0%B2%D0%B8%D0%BB%D1%8C%D0%BD%D0%BE
[4] DevDay 2025: ChatGPT становится платформой: https://www.braintools.ru%20ChatGPT%20%D1%81%D1%82%D0%B0%D0%BD%D0%BE%D0%B2%D0%B8%D1%82%D1%81%D1%8F%20%D0%BF%D0%BB%D0%B0%D1%82%D1%84%D0%BE%D1%80%D0%BC%D0%BE%D0%B9
[5] Политика контента: меньше цензуры, больше «зрелости»: https://www.braintools.ru%20%D0%BC%D0%B5%D0%BD%D1%8C%D1%88%D0%B5%20%D1%86%D0%B5%D0%BD%D0%B7%D1%83%D1%80%D1%8B,%20%D0%B1%D0%BE%D0%BB%D1%8C%D1%88%D0%B5%20%C2%AB%D0%B7%D1%80%D0%B5%D0%BB%D0%BE%D1%81%D1%82%D0%B8%C2%BB
[6] ChatGPT Atlas: браузер со встроенной памятью и агентами: https://www.braintools.ru%20%D0%B1%D1%80%D0%B0%D1%83%D0%B7%D0%B5%D1%80%20%D1%81%D0%BE%20%D0%B2%D1%81%D1%82%D1%80%D0%BE%D0%B5%D0%BD%D0%BD%D0%BE%D0%B9%20%D0%BF%D0%B0%D0%BC%D1%8F%D1%82%D1%8C%D1%8E%20%D0%B8%20%D0%B0%D0%B3%D0%B5%D0%BD%D1%82%D0%B0%D0%BC%D0%B8
[7] gpt-oss-safeguard: ваша личная ИИ-полиция: https://www.braintools.ru%20%D0%B2%D0%B0%D1%88%D0%B0%20%D0%BB%D0%B8%D1%87%D0%BD%D0%B0%D1%8F%20%D0%98%D0%98-%D0%BF%D0%BE%D0%BB%D0%B8%D1%86%D0%B8%D1%8F
[8] Anthropic: #Anthropic
[9] Claude Sonnet 4.5: новый уровень самостоятельности: https://www.braintools.ru%20%D0%BD%D0%BE%D0%B2%D1%8B%D0%B9%20%D1%83%D1%80%D0%BE%D0%B2%D0%B5%D0%BD%D1%8C%20%D1%81%D0%B0%D0%BC%D0%BE%D1%81%D1%82%D0%BE%D1%8F%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%BE%D1%81%D1%82%D0%B8
[10] Claude Haiku 4.5: мал, да удал: https://www.braintools.ru%20%D0%BC%D0%B0%D0%BB,%20%D0%B4%D0%B0%20%D1%83%D0%B4%D0%B0%D0%BB
[11] Claude Agent SDK: собери своего агента: https://www.braintools.ru%20%D1%81%D0%BE%D0%B1%D0%B5%D1%80%D0%B8%20%D1%81%D0%B2%D0%BE%D0%B5%D0%B3%D0%BE%20%D0%B0%D0%B3%D0%B5%D0%BD%D1%82%D0%B0
[12] Petri: опенсорс для проверки элаймента: https://www.braintools.ru%20%D0%BE%D0%BF%D0%B5%D0%BD%D1%81%D0%BE%D1%80%D1%81%20%D0%B4%D0%BB%D1%8F%20%D0%BF%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B8%20%D1%8D%D0%BB%D0%B0%D0%B9%D0%BC%D0%B5%D0%BD%D1%82%D0%B0
[13] Skills: переиспользуемая экспертиза для агентов: https://www.braintools.ru%20%D0%BF%D0%B5%D1%80%D0%B5%D0%B8%D1%81%D0%BF%D0%BE%D0%BB%D1%8C%D0%B7%D1%83%D0%B5%D0%BC%D0%B0%D1%8F%20%D1%8D%D0%BA%D1%81%D0%BF%D0%B5%D1%80%D1%82%D0%B8%D0%B7%D0%B0%20%D0%B4%D0%BB%D1%8F%20%D0%B0%D0%B3%D0%B5%D0%BD%D1%82%D0%BE%D0%B2
[14] Claude Code on the web: кодинг в облаке: https://www.braintools.ru%20%D0%BA%D0%BE%D0%B4%D0%B8%D0%BD%D0%B3%20%D0%B2%20%D0%BE%D0%B1%D0%BB%D0%B0%D0%BA%D0%B5
[15] Google: #Google
[16] Veo 3.1: Google нагоняет Sora: https://www.braintools.ru%20Google%20%D0%BD%D0%B0%D0%B3%D0%BE%D0%BD%D1%8F%D0%B5%D1%82%20Sora
[17] Computer Use от Google: конкурент Claude с лучшими бенчмарками: https://www.braintools.ru%20%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D0%B5%D0%BD%D1%82%20Claude%20%D1%81%20%D0%BB%D1%83%D1%87%D1%88%D0%B8%D0%BC%D0%B8%20%D0%B1%D0%B5%D0%BD%D1%87%D0%BC%D0%B0%D1%80%D0%BA%D0%B0%D0%BC%D0%B8
[18] ИИ от Google и Йеля находит потенциальное средство против опухолей: #%D0%98%D0%98%20%D0%BE%D1%82%20Google%20%D0%B8%20%D0%99%D0%B5%D0%BB%D1%8F%20%D0%BD%D0%B0%D1%85%D0%BE%D0%B4%D0%B8%D1%82%20%D0%BF%D0%BE%D1%82%D0%B5%D0%BD%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5%20%D1%81%D1%80%D0%B5%D0%B4%D1%81%D1%82%D0%B2%D0%BE%20%D0%BF%D1%80%D0%BE%D1%82%D0%B8%D0%B2%20%D0%BE%D0%BF%D1%83%D1%85%D0%BE%D0%BB%D0%B5%D0%B9
[19] Thinking Machines: #Thinking%20Machines
[20] Первый продукт от стартапа Миры Мурати: #%D0%9F%D0%B5%D1%80%D0%B2%D1%8B%D0%B9%20%D0%BF%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82%20%D0%BE%D1%82%20%D1%81%D1%82%D0%B0%D1%80%D1%82%D0%B0%D0%BF%D0%B0%20%D0%9C%D0%B8%D1%80%D1%8B%20%D0%9C%D1%83%D1%80%D0%B0%D1%82%D0%B8
[21] On-Policy Distillation: гибрид дистилляции и RL от Thinking Machines: https://www.braintools.ru%20%D0%B3%D0%B8%D0%B1%D1%80%D0%B8%D0%B4%20%D0%B4%D0%B8%D1%81%D1%82%D0%B8%D0%BB%D0%BB%D1%8F%D1%86%D0%B8%D0%B8%20%D0%B8%20RL%20%D0%BE%D1%82%20Thinking%20Machines
[22] xAI: Grokipedia как альтернатива «предвзятой» Википедии: https://www.braintools.ru%20Grokipedia%20%D0%BA%D0%B0%D0%BA%20%D0%B0%D0%BB%D1%8C%D1%82%D0%B5%D1%80%D0%BD%D0%B0%D1%82%D0%B8%D0%B2%D0%B0%20%C2%AB%D0%BF%D1%80%D0%B5%D0%B4%D0%B2%D0%B7%D1%8F%D1%82%D0%BE%D0%B9%C2%BB%20%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D0%B8
[23] Cursor выпустили Composer: агентная модель со ставкой на скорость: https://www.braintools.ru%20%D0%B0%D0%B3%D0%B5%D0%BD%D1%82%D0%BD%D0%B0%D1%8F%20%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C%20%D1%81%D0%BE%20%D1%81%D1%82%D0%B0%D0%B2%D0%BA%D0%BE%D0%B9%20%D0%BD%D0%B0%20%D1%81%D0%BA%D0%BE%D1%80%D0%BE%D1%81%D1%82%D1%8C
[24] Что там у Китая: #%D0%A7%D1%82%D0%BE%20%D1%82%D0%B0%D0%BC%20%D1%83%20%D0%9A%D0%B8%D1%82%D0%B0%D1%8F
[25] Manus AI разогнали в четыре раза: #Manus%20AI%20%D1%80%D0%B0%D0%B7%D0%BE%D0%B3%D0%BD%D0%B0%D0%BB%D0%B8%20%D0%B2%20%D1%87%D0%B5%D1%82%D1%8B%D1%80%D0%B5%20%D1%80%D0%B0%D0%B7%D0%B0
[26] DeepSeek-OCR: сжатие текста в 20 раз через картинки: https://www.braintools.ru%20%D1%81%D0%B6%D0%B0%D1%82%D0%B8%D0%B5%20%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0%20%D0%B2%2020%20%D1%80%D0%B0%D0%B7%20%D1%87%D0%B5%D1%80%D0%B5%D0%B7%20%D0%BA%D0%B0%D1%80%D1%82%D0%B8%D0%BD%D0%BA%D0%B8
[27] Minimax M2: опенсорс-конкурент для Gemini и Grok: https://www.braintools.ru%20%D0%BE%D0%BF%D0%B5%D0%BD%D1%81%D0%BE%D1%80%D1%81-%D0%BA%D0%BE%D0%BD%D0%BA%D1%83%D1%80%D0%B5%D0%BD%D1%82%20%D0%B4%D0%BB%D1%8F%20Gemini%20%D0%B8%20Grok
[28] Новости от лидеров индустрии: #%D0%9D%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8%20%D0%BE%D1%82%20%D0%BB%D0%B8%D0%B4%D0%B5%D1%80%D0%BE%D0%B2%20%D0%B8%D0%BD%D0%B4%D1%83%D1%81%D1%82%D1%80%D0%B8%D0%B8
[29] OpenAI vs Маск: очередной раунд: https://www.braintools.ru%20%D0%BE%D1%87%D0%B5%D1%80%D0%B5%D0%B4%D0%BD%D0%BE%D0%B9%20%D1%80%D0%B0%D1%83%D0%BD%D0%B4
[30] GPT-5 решает математические задачи (или нет): #GPT-5%20%D1%80%D0%B5%D1%88%D0%B0%D0%B5%D1%82%20%D0%BC%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5%20%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B8%20(%D0%B8%D0%BB%D0%B8%20%D0%BD%D0%B5%D1%82)
[31] OpenAI и свобода слова: запугивание критикующих: https://www.braintools.ru%20%D0%B7%D0%B0%D0%BF%D1%83%D0%B3%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5%20%D0%BA%D1%80%D0%B8%D1%82%D0%B8%D0%BA%D1%83%D1%8E%D1%89%D0%B8%D1%85
[32] OpenAI диверсифицируют железо: AMD получает варранты, Broadcom — кастомные чипы: https://www.braintools.ru%20AMD%20%D0%BF%D0%BE%D0%BB%D1%83%D1%87%D0%B0%D0%B5%D1%82%20%D0%B2%D0%B0%D1%80%D1%80%D0%B0%D0%BD%D1%82%D1%8B,%20Broadcom%20%E2%80%94%20%D0%BA%D0%B0%D1%81%D1%82%D0%BE%D0%BC%D0%BD%D1%8B%D0%B5%20%D1%87%D0%B8%D0%BF%D1%8B
[33] Nvidia ставит на Маска: $2 млрд «главному» сопернику OpenAI: https://www.braintools.ru%20%242%20%D0%BC%D0%BB%D1%80%D0%B4%20%C2%AB%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D0%BE%D0%BC%D1%83%C2%BB%20%D1%81%D0%BE%D0%BF%D0%B5%D1%80%D0%BD%D0%B8%D0%BA%D1%83%20OpenAI
[34] Интересные открытия: #%D0%98%D0%BD%D1%82%D0%B5%D1%80%D0%B5%D1%81%D0%BD%D1%8B%D0%B5%20%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%B8%D1%8F
[35] Квантовые вычисления: прорывы по всем фронтам: https://www.braintools.ru%20%D0%BF%D1%80%D0%BE%D1%80%D1%8B%D0%B2%D1%8B%20%D0%BF%D0%BE%20%D0%B2%D1%81%D0%B5%D0%BC%20%D1%84%D1%80%D0%BE%D0%BD%D1%82%D0%B0%D0%BC
[36] Три кита американской экономики: #%D0%A2%D1%80%D0%B8%20%D0%BA%D0%B8%D1%82%D0%B0%20%D0%B0%D0%BC%D0%B5%D1%80%D0%B8%D0%BA%D0%B0%D0%BD%D1%81%D0%BA%D0%BE%D0%B9%20%D1%8D%D0%BA%D0%BE%D0%BD%D0%BE%D0%BC%D0%B8%D0%BA%D0%B8
[37] Google строит «мозги» для термоядерного реактора: #Google%20%D1%81%D1%82%D1%80%D0%BE%D0%B8%D1%82%20%C2%AB%D0%BC%D0%BE%D0%B7%D0%B3%D0%B8%C2%BB%20%D0%B4%D0%BB%D1%8F%20%D1%82%D0%B5%D1%80%D0%BC%D0%BE%D1%8F%D0%B4%D0%B5%D1%80%D0%BD%D0%BE%D0%B3%D0%BE%20%D1%80%D0%B5%D0%B0%D0%BA%D1%82%D0%BE%D1%80%D0%B0
[38] Трафик Википедии падает из-за «помощи» ИИ и соцсетей: #%D0%A2%D1%80%D0%B0%D1%84%D0%B8%D0%BA%20%D0%92%D0%B8%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D0%B8%20%D0%BF%D0%B0%D0%B4%D0%B0%D0%B5%D1%82%20%D0%B8%D0%B7-%D0%B7%D0%B0%20%C2%AB%D0%BF%D0%BE%D0%BC%D0%BE%D1%89%D0%B8%C2%BB%20%D0%98%D0%98%20%D0%B8%20%D1%81%D0%BE%D1%86%D1%81%D0%B5%D1%82%D0%B5%D0%B9
[39] Полезные инструменты: #%D0%9F%D0%BE%D0%BB%D0%B5%D0%B7%D0%BD%D1%8B%D0%B5%20%D0%B8%D0%BD%D1%81%D1%82%D1%80%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%8B
[40] Работа с контентом и медиа: #%D0%A0%D0%B0%D0%B1%D0%BE%D1%82%D0%B0%20%D1%81%20%D0%BA%D0%BE%D0%BD%D1%82%D0%B5%D0%BD%D1%82%D0%BE%D0%BC%20%D0%B8%20%D0%BC%D0%B5%D0%B4%D0%B8%D0%B0
[41] Разработка и автоматизация: #%D0%A0%D0%B0%D0%B7%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0%20%D0%B8%20%D0%B0%D0%B2%D1%82%D0%BE%D0%BC%D0%B0%D1%82%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F
[42] Продуктивность и рабочий процесс: #%D0%9F%D1%80%D0%BE%D0%B4%D1%83%D0%BA%D1%82%D0%B8%D0%B2%D0%BD%D0%BE%D1%81%D1%82%D1%8C%20%D0%B8%20%D1%80%D0%B0%D0%B1%D0%BE%D1%87%D0%B8%D0%B9%20%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81
[43] Бизнес, маркетинг и исследования: #%D0%91%D0%B8%D0%B7%D0%BD%D0%B5%D1%81,%20%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%B8%D0%BD%D0%B3%20%D0%B8%20%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F
[44] Исследования на почитать: #%D0%98%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F%20%D0%BD%D0%B0%20%D0%BF%D0%BE%D1%87%D0%B8%D1%82%D0%B0%D1%82%D1%8C
[45] Заключение: #%D0%97%D0%B0%D0%BA%D0%BB%D1%8E%D1%87%D0%B5%D0%BD%D0%B8%D0%B5
[46] выпустили: https://openai.com/index/sora-2
[47] ошибки: http://www.braintools.ru/article/4192
[48] Источник изображения: https://www.youtube.com/shorts/h21LVn-xOIs
[49] Источник изображения: https://www.instagram.com/reel/DPTSjH4D1OW
[50] DevDay: https://openai.com/devday
[51] встроили: https://openai.com/index/introducing-apps-in-chatgpt
[52] Визуальный конструктор: https://platform.openai.com/agent-builder
[53] официально вышел: https://openai.com/index/codex-now-generally-available
[54] выпустили: https://guardrails.openai.com
[55] AgentKit: https://openai.com/index/introducing-agentkit
[56] ChatKit: https://platform.openai.com/docs/guides/chatkit
[57] GPT-5 Pro: https://platform.openai.com/docs/models/gpt-5-pro
[58] Sora 2: https://platform.openai.com/docs/guides/video-generation
[59] gpt-realtime-mini: https://platform.openai.com/docs/models/gpt-realtime-mini
[60] gpt-audio-min: https://platform.openai.com/docs/models/gpt-audio-mini
[61] gpt-image-1-mini : https://platform.openai.com/docs/models/gpt-image-1-mini
[62] обещают: https://x.com/sama/status/1978129344598827128
[63] ChatGPT Atlas: https://openai.com/index/introducing-chatgpt-atlas/
[64] Источник изображения: https://openai.com/index/introducing-chatgpt-atlas/https://openai.com/index/introducing-chatgpt-atlas/
[65] выпустили: https://openai.com/index/introducing-gpt-oss-safeguard
[66] Claude Sonnet 4.5: https://www.anthropic.com/news/claude-sonnet-4-5
[67] Claude Haiku 4.5: https://www.anthropic.com/news/claude-haiku-4-5
[68] поведения: http://www.braintools.ru/article/9372
[69] выпустили: https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk
[70] выложили: https://www.anthropic.com/research/petri-open-source-auditing
[71] другим нежелательным действиям: https://habr.com/ru/companies/magnus-tech/articles/936314/
[72] поведение: http://www.braintools.ru/article/5593
[73] добавили: https://www.anthropic.com/news/skills
[74] запустили: https://www.anthropic.com/news/claude-code-on-the-web
[75] выпустили: https://blog.google/technology/ai/veo-updates-flow/
[76] логично: http://www.braintools.ru/article/7640
[77] Gemini 2.5 Computer Use: https://blog.google/technology/google-deepmind/gemini-computer-use-model/
[78] C2S-Scale 27B: https://blog.google/technology/ai/google-gemma-ai-cancer-therapy-discovery/
[79] обучение: http://www.braintools.ru/article/5125
[80] Источник изображения: https://www.biorxiv.org/content/10.1101/2025.04.14.648850v3.full
[81] Tinker.: https://thinkingmachines.ai/blog/announcing-tinker
[82] Tinker Cookbook: https://github.com/thinking-machines-lab/tinker-cookbook
[83] представили: https://thinkingmachines.ai/blog/on-policy-distillation
[84] забывание: http://www.braintools.ru/article/3931
[85] Grokipedia: https://grokipedia.com/
[86] страница: https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%BE%D0%BA%D0%B8%D0%BF%D0%B5%D0%B4%D0%B8%D1%8F
[87] собрали свою: https://cursor.com/blog/composer
[88] обновился: https://manus.im/blog/manus-1.5-release
[89] выпустили: https://github.com/deepseek-ai/DeepSeek-OCR
[90] памяти: http://www.braintools.ru/article/4140
[91] Источник изображения: https://arxiv.org/pdf/2510.18234
[92] выпустили: https://github.com/MiniMax-AI/MiniMax-M2
[93] целый лендинг: https://openai.com/elon-musk/
[94] ответном судебном иске: https://cdn.openai.com/pdf/e5875724-4081-4b83-bd70-72254b407cb2/oai-answer-and-affirmative-defenses.pdf
[95] справилась: https://x.com/nasqret/status/1974665206912389596
[96] опровергла: https://x.com/PI010101/status/1974909578983907490
[97] «решила»: https://x.com/SebastienBubeck/status/1977181716457701775
[98] преподнесли: https://www.reddit.com/r/OpenAI/comments/1o9zgom/chatgpt5_finds_solution_to_10_erdos_problems/
[99] Источник изображения: https://www.reddit.com/r/OpenAI/comments/1o9zgom/comment/nkcybpd/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button
[100] оправдались: https://x.com/SebastienBubeck/status/1980311866770653632
[101] сидел дома за ужином: https://x.com/_NathanCalvin/status/1976649051396620514
[102] заключили: https://openai.com/index/openai-amd-strategic-partnership/
[103] объявили: https://openai.com/index/openai-and-broadcom-announce-strategic-collaboration/
[104] вкладывает: https://www.bloomberg.com/news/articles/2025-10-07/musk-s-xai-nears-20-billion-capital-raise-tied-to-nvidia-chips
[105] прямо сказал: https://www.youtube.com/watch?v=y2ab3A_pBiY&t=42
[106] решили: https://www.thecrimson.com/article/2025/10/2/quantum-computing-breakthrough/
[107] Quantum Echoes: https://blog.google/technology/research/quantum-echoes-willow-verifiable-quantum-advantage/
[108] Первая: https://fortune.com/2025/10/07/data-centers-gdp-growth-zero-first-half-2025-jason-furman-harvard-economist/
[109] Вторая: https://www.bloomberg.com/news/features/2025-10-07/openai-s-nvidia-amd-deals-boost-1-trillion-ai-boom-with-circular-deals
[110] запартнерились: https://deepmind.google/discover/blog/bringing-ai-to-the-next-generation-of-fusion-energy/
[111] боль: http://www.braintools.ru/article/9901
[112] подкреплением: http://www.braintools.ru/article/5528
[113] сообщил: https://diff.wikimedia.org/2025/10/17/new-user-trends-on-wikipedia/
[114] Парадокс: http://www.braintools.ru/article/8221
[115] CrePal: https://crepal.ai/
[116] Riverside: https://riverside.com/
[117] Alloy: https://alloy.app/
[118] Deamoy: https://deamoy.ai/
[119] Pencil: https://pencil.dev/
[120] Caesr AI: https://www.caesr.ai/
[121] Traycer AI: https://traycer.ai/
[122] Cyrus: https://www.atcyrus.com/
[123] Logic: https://logic.inc/
[124] Director: https://www.director.ai/
[125] SigmaMind AI: https://www.sigmamind.ai/
[126] Flint: https://www.tryflint.com/
[127] Mem 2.0: https://get.mem.ai/
[128] myNeutron: https://myneutron.ai/
[129] Krisp: https://krisp.ai/
[130] Attrove AI: https://attrove.com/
[131] Timelinize: https://timelinize.com
[132] Nimo: https://www.nimo.space/
[133] PromptSignal: https://www.promptsignal.ai/
[134] Fruitful: https://fruitful.app/
[135] Squad: https://meetsquad.ai/
[136] Lorikeet: https://www.lorikeetcx.ai/
[137] Clay: https://www.clay.com/
[138] Scroll: https://www.scroll.ai/
[139] Jack and Jill: https://jackandjill.ai/
[140] ProblemHunt: https://problemhunt.pro/en
[141] Тестирование Veo 3 как модели мира : https://arxiv.org/pdf/2509.20328
[142] мышление: http://www.braintools.ru/thinking
[143] зрения: http://www.braintools.ru/article/6238
[144] Биологическая нейроархитектура, вдохновленная мозгом: https://arxiv.org/pdf/2509.26507
[145] Рекурсивные рассуждения в крошечных нейросетях: https://arxiv.org/pdf/2510.04871
[146] Банк рассуждений для обучения на ошибках в реальном времени : http://arxiv.org/pdf/2509.25140v1
[147] Релиз nanochat от Андрея Карпаты: https://github.com/karpathy/nanochat/discussions/8
[148] репозиторий: http://github.com/karpathy/nanochat
[149] Уязвимость существующих методов защиты LLM от взлома : https://arxiv.org/pdf/2510.09023
[150] Количественное определение AGI и оценка GPT-5 : https://arxiv.org/pdf/2510.18212
[151] Оптимизация использования GPU для инференса LLM : https://ennanzhai.github.io/pub/sosp25-aegaeon.pdf
[152] потребность: http://www.braintools.ru/article/9534
[153] Деградация LLM от данных из соцсетей : http://arxiv.org/pdf/2510.13928
[154] Рассуждения с помощью сэмплинга : https://arxiv.org/pdf/2510.14901
[155] Эволюционные стратегии для файнтюнинга LLM: https://arxiv.org/pdf/2509.24372
[156] Базовые модели знают, когда начинать рассуждать, а думающие — учатся этому: https://arxiv.org/pdf/2510.07364
[157] Масштабирование вычислений для RL в LLM: https://arxiv.org/pdf/2510.13786
[158] Память как действие для долгосрочных задач : https://arxiv.org/pdf/2510.12635
[159] Вербализованный сэмплинг для разнообразия ответов: https://arxiv.org/pdf/2510.01171
[160] Влияние GenAI на академическую продуктивность: https://arxiv.org/pdf/2510.02408
[161] SWE-Bench Pro: новый бенчмарк для ИИ-агентов в разработке: https://arxiv.org/pdf/2509.16941
[162] Code World Model от Meta FAIR: https://arxiv.org/pdf/2510.02387
[163] математики: http://www.braintools.ru/article/7620
[164] Обучение с подкреплением на данных претрейна: https://arxiv.org/pdf/2509.19249
[165] Что такое «эффективный ризонинг»?: https://arxiv.org/pdf/2509.19284
[166] Короткое окно внимания для долгосрочной памяти: https://arxiv.org/pdf/2509.24552
[167] внимания: http://www.braintools.ru/article/7595
[168] Эволюция концептов при претрейне языковых моделей: https://arxiv.org/pdf/2509.17196
[169] Продвинутое финансовое мышление в LLM: https://arxiv.org/pdf/2507.02954
[170] Источник: https://habr.com/ru/companies/magnus-tech/articles/954132/?utm_source=habrahabr&utm_medium=rss&utm_campaign=954132
Нажмите здесь для печати.