- BrainTools - https://www.braintools.ru -

AMI Labs предлагает смотреть на модель мира не как на разновидность языкового ИИ, а как на систему, способную воспринимать физическую реальность, выделять в ней ключевые связи и предсказывать последствия действий. В статье разберем, как компания понимает сенсорные данные, почему делает ставку на скрытые представления вместо реконструкции «сырого» мира и зачем связывает понимание среды с возможностью прогнозировать будущее поведение [1] агента.
Интерес [2] к теме перестал быть сугубо академическим в момент, когда AMI Labs, новая компания Яна Лекуна, привлекла 1,03 млрд долларов при оценке стоимости компании до инвестиций в 3,5 млрд. TechCrunch пишет [3], что AMI делает ставку на модели мира (world models).
Ян Лекун (Yann LeCun) — франко-американский ученый в области искусственного интеллекта [4], один из ключевых пионеров глубокого обучения [5]. Больше всего он известен работами по сверточным нейронным сетям (CNN), которые стали базовой технологией для распознавания изображений и компьютерного зрения [6]. В 2018 году Лекун вместе с Джеффри Хинтоном и Йошуа Бенджио получил премию Тьюринга за вклад, который сделал глубокие нейросети практически применимыми.
Принадлежащая ему AMI — исследовательская AI-компания, разрабатывающая модели мира, способные работать с данными из реальной среды: камер, датчиков и сенсоров. В компании исходят из того, что такие данные непрерывны, многомерны и зашумлены, поэтому подходы, хорошо зарекомендовавшие себя в языковых моделях, не всегда подходят для прогнозирования событий в физическом мире.
Вместо этого AMI создает системы, которые выделяют из сенсорных данных устойчивые абстрактные представления и уже на их основе моделируют развитие ситуации. Такой подход должен помочь агентным системам оценивать последствия своих действий, планировать шаги и учитывать ограничения, связанные с безопасностью и управляемостью.
Компания фокусируется на сферах, где надежность ИИ особенно важна: промышленной автоматизации, робототехнике, носимых устройствах и здравоохранении. AMI называет себя международной исследовательской лабораторией, основанной командой ученых и инженеров, и подчеркивает, что настоящий интеллект начинается не с языка, а с понимания реального мира.
Вокруг термина «модель мира» уже появляется споры и разные трактовки. Им начинают называть слишком разные вещи: и видеогенераторы, и воплощенных (embodied) агентов, и причинные модели, и просто более продвинутую мультимодальность.
Сама AMI объясняет свою концепцию так: модель мира должна не просто обрабатывать поток сырых данных из внешней среды, а выделять в нем устойчивую внутреннюю структуру. Для этого система учится строить абстрактные представления сенсорных данных, отсеивать случайные и непредсказуемые детали и уже на этом уровне прогнозировать развитие ситуации.
Ключевой момент в том, что такая модель может быть связана с действиями агента. Тогда она нужна не только для наблюдения, но и для планирования: система получает возможность предсказывать последствия своих шагов и выбирать последовательность действий с учетом ограничений безопасности.
AMI понимает под моделью мира следующее:
Рассматривает модель мира не как очередную сверхбольшую языковую модель, а как систему, которая работает с сенсорной реальностью. Речь идет о данных, поступающих напрямую из окружающей среды, а не только о мире, уже переведенном в слова.
Делает ставку не на буквальное восстановление сырых данных, а на создание абстрактного внутреннего состояния — скрытого представления, в котором модель схватывает структуру сцены, отслеживает движение объектов и понимает причинно-следственные связи.
Использует модель мира не только как инструмент интерпретации наблюдаемого, но и как основу для прогнозирования. Такая система должна уметь отвечать на главный вопрос: что произойдет, если агент выполнит то или иное действие.

Лебрюн, ранее занимавшийся цифровой медициной в Nabla, пришел к близкому с Яном Лекуном выводу: большие языковые модели имеют серьезные ограничения, особенно там, где цена ошибки [8] слишком высока. В материалах о компании именно это называется одной из причин поворота к JEPA-подходу и, шире, к моделям мира как к альтернативной линии развития ИИ.
Язык — лишь один из способов описания мира, тогда как по-настоящему надежный интеллект должен опираться на более глубокое представление о среде, ее изменениях и последствиях действий. Поэтому формула «настоящий интеллект начинается не с языка, а с мира» для AMI — отправная точка всей методологии.
Компания не продает идею быстрого выхода на рынок. Лебрюн признает, что речь идет об очень амбициозном проекте, который начинается с фундаментальной науки и может идти к прикладным продуктам годами. И в этом, пожалуй, главное отличие AMI от множества стартапов новой волны: она не пытается просто обернуть большую языковую модель в агентную оболочку, а предлагает куда более глубокую смену архитектурной логики.

Ключевую роль в этом направлении играет семейство архитектур JEPA [9] — Joint Embedding Predictive Architecture, или архитектура предсказания в совместном пространстве представлений, с которой имя Яна Лекуна связано уже несколько лет. JEPA важна как принципиально другой способ постановки самой задачи. Вместо того чтобы пытаться предсказать каждый пиксель будущего кадра или каждый следующий токен в последовательности, такая модель учится предсказывать векторное представление наблюдения — компактную скрытую структуру, в которой сохранено главное. За счет этого можно отбрасывать шум, случайные детали и мелкие колебания, оставляя то, что действительно важно для понимания ситуации и последующего действия.
Эта идея уже получила подтверждение в работе V-JEPA 2. Авторы пишут, что на первом этапе модель предварительно обучили на массиве из более чем миллиона часов интернет-видео. Затем исследователи дообучили латентную модель мира, обусловленную действиями (latent action-conditioned world model) — версию V-JEPA 2-AC, — используя менее 62 часов неразмеченных робототехнических видео из набора данных Droid.
После этого систему в режиме без дополнительного обучения на новой среде (zero-shot) развернули на роботизированных манипуляторах Franka в двух разных лабораториях. Модель смогла выполнять задачи по захвату и перемещению объектов, используя планирование по целевым изображениям, — без сбора данных именно в этих средах, без специального обучения под конкретную задачу и без функции вознаграждения.
По мнению исследователей, такой подход позволяет построить модель мира, способную к планированию действий в физическом мире.
На фоне нынешнего бума мультимодальности легко решить, что любая система, которая обрабатывает видео, изображение, текст и действие, уже автоматически является моделью мира. Но это не так. Мультимодальность говорит о числе каналов ввода и вывода. А модель мира — о структуре внутреннего представления и цели обучения. Система может быть мультимодальной [11], но оставаться по сути интерфейсным преобразователем: получила картинку и инструкцию — выдала текст или действие. В таком случае она может быть очень полезной, но все еще не иметь внутреннего механизма прогнозирования динамики среды.
В подходе AMI модель мира отличается прежде всего тем, что понимается как латентная динамическая модель (latent dynamics model). Ее задача — не просто объединять разные типы данных, а предсказывать, как меняется внутреннее состояние среды и к каким последствиям приведут действия агента. В этом смысле речь скорее идет о компактном внутреннем симуляторе значимых процессов реального мира, чем о широкой мультимодальной оболочке.
Модель мира отвечает на вопрос: что произойдет дальше, если среда находится в определенном состоянии, а агент совершит то или иное действие? Модель класса VLA отвечает на другой вопрос: какое действие нужно выбрать сейчас, исходя из того, что система видит, какую инструкцию получила и каким набором действий располагает? Это не взаимоисключающие подходы, а разные уровни одной и той же архитектуры.
Без модели мира VLA-система может оказаться слишком реактивной. Она способна хорошо переводить визуальный контекст и языковую цель в действие, но это еще не означает глубокого понимания того, как среда будет меняться дальше. Для простых задач этого часто достаточно. Но в длинных, хрупких или физически чувствительных сценариях нужен внутренний контур прогноза — возможность заранее «проигрывать» последствия: что произойдет после касания, после перемещения объекта, после попытки открыть механизм или при столкновении нескольких объектов. В этом смысле модель мира выглядит как недостающий слой внутренней симуляции, который делает VLA не просто реактивной, а по-настоящему планирующей системой.
Но и одна только модель мира не решает задачу целиком. Даже если система хорошо предсказывает скрытую динамику среды, ей все равно нужен исполнительный слой, который свяжет восприятие [12], цель, язык пользователя, интерфейс управления и итоговую генерацию действий. Иначе модель мира останется внутренним механизмом прогноза без удобного способа воплотить этот прогноз в поведение [13]. Поэтому наиболее реалистичный инженерный сценарий сегодня выглядит не как выбор между VLA и моделью мира, а как их объединение: модель мира становится внутренним или соседним уровнем внутри VLA-конвейера (VLA pipeline).
Если объединить подход AMI, JEPA, более широкую традицию моделей мира и новые работы по VLA, получается довольно понятная инженерная схема. Сначала система получает сенсорные данные из внешней среды: видео, изображения, состояние робота и другие сигналы. Затем эти наблюдения переводятся в более абстрактное внутреннее представление. На его основе строится модель мира, которая пытается предсказать, как будет развиваться ситуация и к чему приведут действия агента. Дальше подключается модуль планирования, который выбирает подходящую последовательность шагов. И уже поверх этого VLA-уровень связывает текущее восприятие среды, цель, языковую команду и конкретные действия системы.
В такой архитектуре язык не исчезает, но занимает другое место. Он перестает быть главным носителем всего интеллекта и становится скорее интерфейсом для постановки целей, ограничений и задач. А понимание того, что происходит в среде и что случится после того или иного действия, переносится во внутренний предиктивный слой. В этом и заключается один из главных сдвигов после эпохи LLM: от модели, которая в основном описывает мир словами, к модели, которая должна внутренне моделировать его динамику.
На сайте AMI перечислены области, где особенно важны надежность, управляемость и безопасность: промышленное управление, автоматизация, носимые устройства, робототехника и здравоохранение. Все эти сферы объединяет одно: цена ошибки здесь намного выше, чем в обычных текстовых интерфейсах. Если чат-бот неточно пересказал статью, это неприятно, но не критично. Если же система ошиблась в оценке промышленного процесса или медицинских рисков, последствия могут быть куда серьезнее.
Именно поэтому ставка на модели мира выглядит для рынка понятной. В таких сценариях недостаточно, чтобы система просто хорошо формулировала ответы. Она должна более надежно понимать, что происходит в среде, как она меняется и к чему приведет то или иное действие.
TechCrunch пишет [3], что первым партнером AMI станет Nabla — цифровой медицинский стартап, с которым Александр Лебрюн связан как председатель совета директоров. Это партнерство прямо связывается с неудовлетворенностью ограничениями больших языковых моделей в сферах, где галлюцинации могут иметь опасные последствия для жизни и здоровья. Конечно, на этом этапе было бы неправильно делать вывод, что AMI уже построила полноценную платформу моделей мира для медицины или промышленности. Но сам выбор Nabla как первого партнера важен: он показывает, на какие задачи компания смотрит с самого начала. Речь идет о средах, где мало просто «хорошо говорить» — нужен более надежный внутренний слой моделирования.
Показателен и другой пример из исследовательской практики. Речь о V-JEPA 2-AC. Эта работа важна тем, что показывает: даже сравнительно небольшой объем робототехнических данных в сочетании с предобучением на огромном массиве видео может дать систему, способную планировать действия в новой лабораторной среде без дополнительного обучения. Это еще не универсальный интеллект и не доказательство того, что задача уже решена. Но доказывает, что латентные модели мира, учитывающие действия агента, могут стать рабочим механизмом физического планирования.
При всей привлекательности этой идеи важно не превращать ее в новый хайп без оговорок. Во-первых, сам термин «модель мира» уже начинает размываться. Даже Лебрюн в разговоре с TechCrunch иронизировал, что через полгода почти любая компания сможет называть себя разработчиком «моделей мира» просто ради инвестиций. Это значит, что в ближайшие годы под одним и тем же словом будут смешиваться очень разные подходы — от систем для embodied-планирования до обычных мультимодальных моделей.
Во-вторых, наличие внутреннего латентного предиктора еще не означает, что система действительно «понимает мир». Между умением предсказывать внутренние представления и настоящим причинным пониманием лежит большая дистанция. Модель может быть полезной для отдельных задач планирования, но при этом плохо переноситься в новые среды, ломаться на нестандартных случаях и не справляться с длинными цепочками рассуждений и действий. Поэтому сегодня о моделях мира точнее говорить не как о готовой замене LLM, а как о перспективной архитектурной программе.
AMI продвигает не просто новый тип интерфейса, а другую базовую идею о том, как должна быть устроена интеллектуальная система. Эта идея заключается в следующем: если система должна надежно действовать в реальном мире, ей недостаточно только предсказывать языковые последовательности. Ей нужна внутренняя модель мира, работающая на уровне представлений, способная прогнозировать последствия действий и поддерживать планирование. Именно так AMI сегодня описывает свой подход публично.
Автор: darovska_online
Источник [14]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/29467
URLs in this post:
[1] поведение: http://www.braintools.ru/article/9372
[2] Интерес: http://www.braintools.ru/article/4220
[3] пишет: https://techcrunch.com/2026/03/09/yann-lecuns-ami-labs-raises-1-03-billion-to-build-world-models/
[4] интеллекта: http://www.braintools.ru/article/7605
[5] обучения: http://www.braintools.ru/article/5125
[6] зрения: http://www.braintools.ru/article/6238
[7] Источник: https://arxiv.org/html/2506.21539v1
[8] ошибки: http://www.braintools.ru/article/4192
[9] JEPA: https://arxiv.org/abs/2506.09985
[10] Источник: https://arxiv.org/html/2506.09985v1
[11] мультимодальной: https://arxiv.org/abs/2405.14093
[12] восприятие: http://www.braintools.ru/article/7534
[13] поведение: http://www.braintools.ru/article/5593
[14] Источник: https://habr.com/ru/companies/ru_mts/articles/1027182/?utm_campaign=1027182&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.