Джим Фан, директор по робототехнике NVIDIA, заявил о смене парадигмы в ИИ. Предсказание следующего слова — прошлый век. Новая цель — предсказание физических состояний мира.
Суть в том, что современные VLA-модели для роботов строятся поверх языковых моделей, но большинство их параметров хранят знания («это лого Coca-Cola»), а не физику («наклонишь бутылку — жидкость прольётся»). Это архитектурный тупик.
Аргумент от обезьяны: приматы водят гольф-кары, понимая язык хуже BERT. Треть коры мозга обрабатывает зрение, язык — компактная надстройка. Зрение замыкает сенсомоторику напрямую, без слов.
Вероятно, что в текущем году «модели мира» (предсказание будущих состояний по действиям) станут основой робототехники. Рассуждения будут происходить в визуальном пространстве — симуляция геометрии вместо перевода в текст.
Редкий случай, когда человек из большой корпорации публично говорит: возможно, мы копали не туда.
Иногда пишу про такое в токены на ветер — иногда о том, как LLM думают, или просто притворяются.
Автор: ScriptShaper


