- BrainTools - https://www.braintools.ru -
Джим Фан, директор по робототехнике NVIDIA, заявил о смене парадигмы в ИИ. Предсказание следующего слова — прошлый век. Новая цель — предсказание физических состояний мира.
Суть в том, что современные VLA-модели для роботов строятся поверх языковых моделей, но большинство их параметров хранят знания («это лого Coca-Cola»), а не физику («наклонишь бутылку — жидкость прольётся»). Это архитектурный тупик.
Аргумент от обезьяны: приматы водят гольф-кары, понимая язык хуже BERT. Треть коры мозга [1] обрабатывает зрение [2], язык — компактная надстройка. Зрение замыкает сенсомоторику напрямую, без слов.
Вероятно, что в текущем году «модели мира» (предсказание будущих состояний по действиям) станут основой робототехники. Рассуждения будут происходить в визуальном пространстве — симуляция геометрии вместо перевода в текст.
Редкий случай, когда человек из большой корпорации публично говорит: возможно, мы копали не туда.
Иногда пишу про такое в токены на ветер [3] — иногда о том, как LLM думают, или просто притворяются.
Автор: ScriptShaper
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25154
URLs in this post:
[1] мозга: http://www.braintools.ru/parts-of-the-brain
[2] зрение: http://www.braintools.ru/article/6238
[3] токены на ветер: https://t.me/tokensaway
[4] Источник: https://habr.com/ru/news/992534/?utm_source=habrahabr&utm_medium=rss&utm_campaign=992534
Нажмите здесь для печати.