- BrainTools - https://www.braintools.ru -

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 1

Январь 2026 года показал важную вещь. Сегодня идут споры о том, насколько искусственный интеллект [1] способен удерживать целостную модель мира. Ещё недавно нейросети умели генерировать красивые видео. Но стоило в промпте попросить: «пройди вперёд», «оглянись», «вернись» — и прежняя сцена попросту пропадала.

Объекты «плыли», текстуры менялись, причинно-следственные связи исчезали. Сгенерированный мир не выдерживал движения камеры. Он не был моделью мира — он был просто иллюзией.

Теперь появляются open-source модели, которые создают управляемые миры в реальном времени. Можно двигаться, менять события, возвращаться к объектам — и всё остаётся на своих местах. Это первый шаг от простой генерации к симуляции мира.

Агенты тоже меняются. Раньше у них не было биографии. А без памяти [2] о себе нет и саморазвития. Каждый новый день для них был как первый — настоящий «день сурка».

Теперь появляется Софья — агент с автобиографией, долгосрочной памятью и собственной мотивацией [3]. Она запоминает ошибки [4], накапливает опыт [5] и со временем меняет стратегии. Как будто по-настоящему взрослеет.

В программировании исчезает иллюзия автопилота. Лучшие разработчики не доверяют «вайб-кодингу». Они управляют агентами, проверяют шаги, задают рамки. Выигрывает не тот, у кого самый умный ИИ, а тот, кто умеет им управлять.

Сегодня ИИ учится без датасетов — придумывая задачи сам себе. Он начинает спорить сам с собой. Роботы учатся чувствовать глубину сцены и понимать, продвигаются ли они к цели. Агенты-оркестраторы координируют десятки субагентов, чтобы те не теряли контекст.

Говорят, что LLM — тупик. Но сами по себе языковые модели действительно не дают общего интеллекта. Интеллект появляется там, где есть память, цели, проверка данных и мультиагентная координация.

Это обзор лучших исследований января 2026 года. Поехали!

1. Open-source наносит ответный удар: управляемая симуляция мира в реальном времени

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 2

Ещё вчера нейросети умели просто генерировать ролики. Но мир не выдерживал движения камеры. Стоило попросить «пройди вперёд» и весь сгенерированный мир рассыпался.

Происходит переход от text-to-video к text-to-world. Это уже не последовательность кадров, а управляемая среда.

Сбор игровых и синтетических данных: захват кадров синхронизирован с действиями и состояниями камеры, чтобы модель училась причинным связям.

Сбор игровых и синтетических данных: захват кадров синхронизирован с действиями и состояниями камеры, чтобы модель училась причинным связям.

Новые open-source модели создают мир в реальном времени. Можно двигаться, крутить камеру, возвращаться к объектам — и сцена остаётся согласованной. Модель обучена на реальных видео, игровых записях и синтетических данных из Unreal Engine, где известны действия и параметры камеры.

Профилирование данных: фильтрация, семантическая оценка и геометрические метки превращают сырой видеопоток в материал для обучения модели мира.

Профилирование данных: фильтрация, семантическая оценка и геометрические метки превращают сырой видеопоток в материал для обучения [6] модели мира.

Управление встроено прямо в нейросеть. Затем инференс ускорили почти до реального времени — задержка меньше секунды. В результате получается «почти игра»: длинная память, динамика, возможность менять погоду или события без разрушения сцены.

Многоэтапное обучение: от базового видеоприора к управляемости и долгой памяти, затем — к причинной архитектуре и ускорению для real-time.

Многоэтапное обучение: от базового видеоприора к управляемости и долгой памяти, затем — к причинной архитектуре и ускорению для real-time.

Код и веса открыты. Это ещё не идеальный цифровой мир. Но это прочный мост от генер��ции к настоящим моделям мира.

Возникающая память: примеры, где ориентиры сохраняются после долгого отсутствия в кадре, а скрытая динамика остаётся согласованной.

Возникающая память: примеры, где ориентиры сохраняются после долгого отсутствия в кадре, а скрытая динамика остаётся согласованной.

🔍 Обзор статьи [7] | 📜 Полная статья [8] | 💾 Код [9] | 🤖 Модель [10]

2. Почему ИИ-агенты не помнят собственную жизнь — и как агенту Софье дали автобиографию, мотивацию и долгосрочную память

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 7

Современные агенты умны, но забывчивы. Они планируют, вызывают инструменты, решают задачи — но почти не помнят свою историю. Каждый день для них как первый.

Сравнение парадигм непрерывного обучения и персистентного агента. Здесь хорошо видно ключевую идею: обычное continual learning запускается по внешнему расписанию, а «персистентный» агент сам движется по циклу «цель—действие—обратная связь—новая цель».

Сравнение парадигм непрерывного обучения и персистентного агента. Здесь хорошо видно ключевую идею: обычное continual learning запускается по внешнему расписанию, а «персистентный» агент сам движется по циклу «цель—действие—обратная связь—новая цель».

Исследователи предложили архитектуру «Система-3». Если Система-1 действует, Система-2 рассуждает, то Система-3 следит за самим мышлением [11]: хранит автобиографию, ставит долгосрочные цели, проверяет себя и формирует внутреннюю мотивацию [12].

Схема архитектуры Системы-3: исполнительный модуль собирает сигналы из памяти, модели пользователя, модели себя и внутренних мотиваций, а затем управляет нижними уровнями рассуждений и действий.

Схема архитектуры Системы-3: исполнительный модуль собирает сигналы из памяти, модели пользователя, модели себя и внутренних мотиваций, а затем управляет нижними уровнями рассуждений и действий.

Так появилась Софья. У неё есть эпизодическая память, модель пользователя, модель себя и гибридная награда — внешняя оценка плюс внутреннее любопытство. Она сохраняет успешные стратегии, учится на ошибках и постепенно меняет привычки.

Высокоуровневая архитектура Софья: Система-3 соединяет память, гибридное вознаграждение, моделирование пользователя и самомодель, затем направляет Система-2 (рассуждение) и Система-1 (действие).

Высокоуровневая архитектура Софья: Система-3 соединяет память, гибридное вознаграждение, моделирование пользователя и самомодель, затем направляет Система-2 (рассуждение) и Система-1 (действие).

В экспериментах Софья сокращала рассуждения на 80% в повторяющихся задачах и повышала успешность сложных задач примерно на 40%.

Количественная оценка завершения задач: график иллюстрирует, что при Система-3 агент постепенно осваивает более сложные цели, а не застревает на уровне zero-shot возможностей.

Количественная оценка завершения задач: график иллюстрирует, что при Система-3 агент постепенно осваивает более сложные цели, а не застревает на уровне zero-shot возможностей.

Это шаг к гиперперсонализированным агентам, которые живут в информационной среде, помнят, развиваются и со временем начинают действовать стратегически.

🔍 Обзор статьи [13] | 📜 Полная статья [14]

3. Профессиональные разработчики не вайбят с агентами — они их контролируют

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 12

ИИ-агенты уже умеют читать весь проект, менять файлы и запускать тесты. На словах — магия: описал задачу и получил код.

Это называют «вайб-кодингом»: доверился ИИ и ничего не проверяешь.

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 13

Но в реальной разработке так не работает. Опытные разработчики не отдают управление агенту. Они дробят задачи, заранее задают рамки, читают каждый pull request, запускают тесты и проверяют архитектуру.

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 14

Агент — не автопилот, а ускоритель рутины. Он отлично справляется с типовыми задачами. Но там, где нужны архитектурные решения и понимание домена, контроль остаётся у человека.

Выигрывает не тот, у кого самый умный агент, а тот, кто умеет им управлять.

🔍 Обзор статьи [15]| 📜 Полная статья [16]

4. Как превратить GitHub в память для ИИ-агента

Агенты умеют чинить баги, но час��о действуют так, будто никогда раньше не видели похожих проблем.

В реальности разработчик идёт в GitHub: читает задачу, pull request, обсуждения и смотрит, как другие уже решали такую же ошибку.

Сравнение MemGovern с существующими методами: подход учится на человеческом опыте, превращая необработанные GitHub-данные в память, удобную для агента.

Сравнение MemGovern с существующими методами: подход учится на человеческом опыте, превращая необработанные GitHub-данные в память, удобную для агента.

Исследователи предложили превратить GitHub в структурированную память. Реальные случаи исправлений преобразуются в «карточки опыта»: нормализованные симптомы, тип ошибки, сигналы, контекст — и отдельно логика [17] решения, первопричина и стратегия фикса.

Архитектура MemGovern: отбор GitHub-примеров, стандартизация в карточки опыта и использование через агентный поиск.

Архитектура MemGovern: отбор GitHub-примеров, стандартизация в карточки опыта и использование через агентный поиск.

Это не сырой тред, а упакованный инженерный опыт.

Агент ищет итеративно, а не один раз как в обычном RAG. Он уточняет запросы и отбирает релевантные прецеденты, как живой инженер.

Сравнение стандартного RAG и агентного поиска MemGovern: RAG цепляется за поверхностное сходство, MemGovern итеративно находит релевантную логику исправления.

Сравнение стандартного RAG и агентного поиска MemGovern: RAG цепляется за поверхностное сходство, MemGovern итеративно находит релевантную логику исправления.

Результат — более +4% к решённым задачам на SWE-bench Verified.

Сравнение производительности SWE-Agent и MemGovern на разных LLM на SWE-bench Verified.

Сравнение производительности SWE-Agent и MemGovern на разных LLM на SWE-bench Verified.

Главная идея — коллективная память становится инженерным инструментом.

🔍 Обзор статьи [18] | 📜 Полная статья [19] | 💾 Код [20]

5. Когда данных нет совсем, а учиться всё равно нужно: как ИИ сам придумывает задачи и сам себя проверяет

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 19

Можно ли учить ИИ без датасетов?

Absolute Zero Reasoner работает без внешних данных. Модель играет две роли: proposer создаёт задачу, solver её решает. Среда Python строго проверяет корректность. Если решение верно — начисляется награда.

Иллюстрация идеи Absolute Zero: вместо обучения на человеческих задачах агент сам придумывает задания и учится на проверяемой обратной связи от среды.

Иллюстрация идеи Absolute Zero: вместо обучения на человеческих задачах агент сам придумывает задания и учится на проверяемой обратной связи от среды.

Три режима обучения:

  • дедукция — вычислить результат;

  • абдукция — восстановить вход;

  • индукция — восстановить программу по примерам.

Цикл Absolute Zero: модель предлагает задачу, среда валидирует её и даёт сигнал обучаемости, затем модель решает задачу и получает награду за правильность.

Цикл Absolute Zero: модель предлагает задачу, среда валидирует её и даёт сигнал обучаемости, затем модель решает задачу и получает награду за правильность.

В результате — прирост 10–15% в математике [21] и коде.

Общая схема обучения AZR: генерация задач трёх типов, фильтрация через Python, решение, проверка и совместное обновление proposer и solver.

Общая схема обучения AZR: генерация задач трёх типов, фильтрация через Python, решение, проверка и совместное обновление proposer и solver.

Главная идея: ресурс — не данные, а проверяемая среда. Модель учится не только решать, но и выбирать, чему учиться дальше.

🔍 Обзор статьи [22] | 📜 Полная статья [23]

6. Как LLM помогают дата инженерам наводить порядок в «грязных» данных

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 23

Большая часть проблем аналитики — не в моделях, а в данных. Форматы скачут, значения противоречат друг другу, колонки называются по-разному.

LLM помогают в трёх задачах:

  • Очистка — стандартизация дат, исправление ошибок, заполнение пропусков.

  • Интеграция — сопоставление сущностей между источниками.

  • Обогащение — аннотация колонок, профилирование таблиц, связывание с внешними знаниями.

Подготовка данных к использованию в приложениях — три ключевые задачи (очистка, интеграция и обогащение данных) устраняют основные источники неэффективности: проблемы качества, барьеры интеграции и семантические разрывы.

Подготовка данных к использованию в приложениях — три ключевые задачи (очистка, интеграция и обогащение данных) устраняют основные источники неэффективности: проблемы качества, барьеры интеграции и семантические разрывы.

Используются промпты, генерация кода и агентные пайплайны с инструментами. Но остаются риски: стоимость, галлюцинации и сложность оценки качества.

Обзор подготовки данных, готовых к применению, с помощью методов, усиленных LLM.

Обзор подготовки данных, готовых к применению, с помощью методов, усиленных LLM.

LLM не заменяют инженерную дисциплину. Они становятся слоем понимания смысла поверх сырых данных.

Пример стандартизации данных с усилением с помощью LLM.

Пример стандартизации данных с усилением с помощью LLM.

🔍 Обзор статьи [24] | 📜 Полная статья [25] | 💾 Код [26]

7. Когда агенту нужен дирижёр: AOrchestra и динамическая оркестрация LLM через субагентов

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 27

Когда задача тянется на десятки шагов, контекст раздувается, детали теряются, ошибки накапливаются. В мультиагентных системах добавляется ещё и лишняя «болтовня».

Решение — оркестратор. Он сам не действует в среде, а управляет: выбирает следующий шаг, передаёт контекст и создаёт субагента.

Наглядное сравнение трёх подходов к «суб-агентам как инструментам»: изоляция контекста, статические роли и специализация по запросу, которую продвигает AOrchestra.

Наглядное сравнение трёх подходов к «суб-агентам как инструментам»: изоляция контекста, статические роли и специализация по запросу, которую продвигает AOrchestra.

Каждый субагент динамически собирается из четырёх частей: инструкция, контекст, инструменты и модель. Под конкретную подзадачу — свой исполнитель.

Общая схема AOrchestra: оркестратор многократно делегирует шаги субагентам, которые создаются динамически как 4‑кортеж (I, C, T, M).

Общая схема AOrchestra: оркестратор многократно делегирует шаги субагентам, которые создаются динамически как 4‑кортеж (I, C, T, M).

Это снижает информационный шум, изолирует контекст и позволяет выбирать модель под бюджет.

На бенчмарках GAIA, TerminalBench и SWE-bench Verified — до 16% относительного прироста.

Сводная производительность AOrchestra на GAIA, Terminal‑Bench‑2 и SWE‑Bench‑Verified в сравнении с популярными агентными фреймворками (связка с Gemini‑3‑Flash).

Сводная производительность AOrchestra на GAIA, Terminal‑Bench‑2 и SWE‑Bench‑Verified в сравнении с популярными агентными фреймворками (связка с Gemini‑3‑Flash).

Агентам нужен не ещё один инструмент, а управляемая координация.

🔍 Обзор статьи [27] | 📜 Полная статья [28] | 💾 Код [29]

8. Общество мыслей: как LLM становятся сильнее, когда спорят сами с собой

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 31

Рассуждающие модели сильнее не потому, что думают дольше, а потому что думают структурированно.

Внутри них возникает «общество»: один голос предлагает идею, другой сомневается, третий проверяет. В их рассуждениях появляются вопросы и ответы, смена позиций, внутренний спор и примирение.

Разговорные паттерны в рассуждениях: вопросы и ответы, смена перспективы, конфликт и примирение, а также эмоциональные роли по Бейлзу.

Разговорные паттерны в рассуждениях: вопросы и ответы, смена перспективы, конфликт [30] и примирение, а также эмоциональные роли по Бейлзу.

Когда исследователи усиливали в activation space признак смены реплики, точность на сложной арифметике почти удваивалась. Ослабляли — она падала.

Это не просто корреляция, а управляемый фактор

Steering разговорного признака в activation space: усиление маркера «диалоговой смены реплики» заметно повышает точность и увеличивает проверку и backtracking.

Steering разговорного признака в activation space: усиление маркера «диалоговой смены реплики» заметно повышает точность и увеличивает проверку и backtracking.

Даже при обучении с подкреплением [31] модель постепенно начинает спорить сама с собой.

Разнообразие неявных «персон»: reasoning‑модели показывают больший разброс по чертам личности и по экспертным ролям.

Разнообразие неявных «персон»: reasoning‑модели показывают больший разброс по чертам личности и по экспертным ролям.

Модели становятся умнее, когда начинают мыслить как полноценная команда.

хорошо у них получается действовать в нём.

🔍 Обзор статьи [32] | 📜 Полная статья [33]

9. RoboBrain: как робот понимает глубину 3D-сцены и учится самоконтролю

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 35

Роботу мало распознать объект на картинке. Нужно понять его положение в 3D, расстояние и траекторию движения, не задев окружающие объекты.

Новые возможности RoboBrain 2.5: точное 3D-пространственное рассуждение и плотная временная оценка прогресса, а также суммарный прирост на бенчмарках.

Новые возможности RoboBrain 2.5: точное 3D-пространственное рассуждение и плотная временная оценка прогресса, а также суммарный прирост на бенчмарках.

RoboBrain решает две задачи.

  • 3D-мышление — предсказание координат и абсолютной глубины, построение траектории без столкновений.

  • Самоконтроль — оценка прогресса на каждом шаге. Продвигается ли задача или робот застрял? Если сигналы противоречат друг другу, система снижает доверие к оценке.

Пример TraceSpatial-Bench: показаны истинные start/end и 2D-проекция предсказанной 3D-траектории RoboBrain 2.5.

Пример TraceSpatial-Bench: показаны истинные start/end и 2D-проекция предсказанной 3D-траектории RoboBrain 2.5.

Это шаг к роботам, которые не только видят мир, но и понимают, насколько хорошо у них получается действовать в нём.

🔍 Обзор статьи [34]| 📜 Полная статья [35] | 💾 Код [36]

10. LLM — не тупик. Проблема AGI совсем в другом

Как ИИ-агент Софья обрела личность, симуляция мира в реальном времени и почему LLM — не тупик на пути к AGI - 38

Часто говорят: из next-token prediction нельзя построить AGI.

Но проблема не в LLM. Проблема в отсутствии слоя координации.

Механика координации: слева модель «забрасывает сеть» без приманки и ловит типичные ответы из своей обучающей выборки; справа «приманка» в виде контекста и целей сдвигает распределение и позволяет достать редкую, но нужную цель.

Механика координации: слева модель «забрасывает сеть» без приманки и ловит типичные ответы из своей обучающей выборки; справа «приманка» в виде контекста и целей сдвигает распределение и позволяет достать редкую, но нужную цель.

LLM — мощная Система-1. Без Системы-2, которая ставит цели, держит план, подключает инструменты, проверяет шаги и управляет памятью, модель скатывается к общим ответам.

Рассуждение становится устойчивым, когда закреплено внешними опорами — фактами, проверками, инструментами. Ниже порога такого якорения модель блуждает. Выше — входит в целевой режим.

«Физика координации»: рассуждение трактуется как фазовый переход. Пока S ниже порога, ответы тянет к привычным приорам; в переходной зоне маленькие изменения опор резко меняют режим; выше порога система устойчиво держится на ограничениях задачи.

«Физика координации»: рассуждение трактуется как фазовый переход. Пока S ниже порога, ответы тянет к привычным приорам; в переходной зоне маленькие изменения опор резко меняют режим; выше порога система устойчиво держится на ограничениях задачи.

AGI здесь — это инженерия координации.

Общий интеллект рождается там, где система умеет управлять своими действиями в тексте, коде, 3D-среде и других модальностях — в едином пространстве смыслов.

Как писал Людвиг Витгенштейн: «Границы моего языка означают границы моего мира».

🔍 Обзор статьи [37] | 📜 Полная статья [38]

Вывод

Симуляции становятся управляемыми в реальном времени. Агенты получают биографию и долгосрочную внутреннюю мотивацию [39]. Они подключаются к коллективной памяти. Учатся сами выбирать траекторию обучения и оркестрируют десятки субагентов. Роботы начинают понимать глубину мира и собственный прогресс.

LLM — фундамент. Но интеллект рождается там, где появляется координация между памятью и действием, между планом и контролем, между языком и мультимодальным миром.

Поэтому AGI — это не внезапное пробуждение ИИ. Это инженерия систем, способных жить в причинно-следственной информационной среде.

И, возможно, это и есть настоящая тихая революция.

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [40] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: Dataist

Источник [41]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25826

URLs in this post:

[1] интеллект: http://www.braintools.ru/article/7605

[2] памяти: http://www.braintools.ru/article/4140

[3] мотивацией: http://www.braintools.ru/article/9537

[4] ошибки: http://www.braintools.ru/article/4192

[5] опыт: http://www.braintools.ru/article/6952

[6] обучения: http://www.braintools.ru/article/5125

[7] 🔍 Обзор статьи: https://t.me/dataism_science/129

[8] 📜 Полная статья: https://arxiv.org/html/2601.20540v1

[9] 💾 Код: https://github.com/robbyant/lingbot-world

[10] 🤖 Модель: https://huggingface.co/robbyant/lingbot-world

[11] мышлением: http://www.braintools.ru/thinking

[12] мотивацию: http://www.braintools.ru/article/9384

[13] 🔍 Обзор статьи: https://t.me/dataism_science/114

[14] 📜 Полная статья: https://arxiv.org/html/2512.18202v1

[15] 🔍 Обзор статьи : https://t.me/dataism_science/115

[16] 📜 Полная статья: https://arxiv.org/html/2512.14012v1

[17] логика: http://www.braintools.ru/article/7640

[18] 🔍 Обзор статьи : https://t.me/dataism_science/119

[19] 📜 Полная статья: https://arxiv.org/html/2601.06789v1

[20] 💾 Код: https://github.com/QuantaAlpha/MemGovern

[21] математике: http://www.braintools.ru/article/7620

[22] 🔍 Обзор статьи: https://t.me/dataism_science/118

[23] 📜 Полная статья: https://arxiv.org/html/2505.03335v1

[24] 🔍 Обзор статьи: https://t.me/dataism_science/127

[25] 📜 Полная статья: https://arxiv.org/html/2601.17058v1

[26] 💾 Код: https://github.com/weAIDB/awesome-data-llm

[27] 🔍 Обзор статьи: https://t.me/dataism_science/130

[28] 📜 Полная статья: https://arxiv.org/html/2602.03786v1

[29] 💾 Код: https://github.com/FoundationAgents/AOrchestra

[30] конфликт: http://www.braintools.ru/article/7708

[31] подкреплением: http://www.braintools.ru/article/5528

[32] 🔍 Обзор статьи: https://t.me/dataism_science/122

[33] 📜 Полная статья: https://arxiv.org/html/2601.10825v1/

[34] 🔍 Обзор статьи : https://t.me/dataism_science/123

[35] 📜 Полная статья: https://arxiv.org/html/2601.14352v1

[36] 💾 Код: https://superrobobrain.github.io/

[37] 🔍 Обзор статьи: https://t.me/dataism_science/116

[38] 📜 Полная статья: https://arxiv.org/html/2512.05765v1

[39] мотивацию: http://www.braintools.ru/article/7075

[40] подписывайтесь на мой Telegram-канал: https://t.me/+39p560q7Tpo5NzUy

[41] Источник: https://habr.com/ru/articles/1000714/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1000714

www.BrainTools.ru

Rambler's Top100