- BrainTools - https://www.braintools.ru -

Директор по робототехнике NVIDIA: языковые модели — тупик, будущее за «моделями мира»

Джим Фан, директор по робототехнике NVIDIA, заявил о смене парадигмы в ИИ. Предсказание следующего слова — прошлый век. Новая цель — предсказание физических состояний мира.

Суть в том, что современные VLA-модели для роботов строятся поверх языковых моделей, но большинство их параметров хранят знания («это лого Coca-Cola»), а не физику («наклонишь бутылку — жидкость прольётся»). Это архитектурный тупик.

Аргумент от обезьяны: приматы водят гольф-кары, понимая язык хуже BERT. Треть коры мозга [1] обрабатывает зрение [2], язык — компактная надстройка. Зрение замыкает сенсомоторику напрямую, без слов.

Вероятно, что в текущем году «модели мира» (предсказание будущих состояний по действиям) станут основой робототехники. Рассуждения будут происходить в визуальном пространстве — симуляция геометрии вместо перевода в текст.

Редкий случай, когда человек из большой корпорации публично говорит: возможно, мы копали не туда.


Иногда пишу про такое в токены на ветер [3] — иногда о том, как LLM думают, или просто притворяются.

Автор: ScriptShaper

Источник [4]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/25154

URLs in this post:

[1] мозга: http://www.braintools.ru/parts-of-the-brain

[2] зрение: http://www.braintools.ru/article/6238

[3] токены на ветер: https://t.me/tokensaway

[4] Источник: https://habr.com/ru/news/992534/?utm_source=habrahabr&utm_medium=rss&utm_campaign=992534

www.BrainTools.ru

Rambler's Top100