Ричард Саттон: индустрия ИИ «сбилась с пути», игнорируя основы интеллекта

Ричард Саттон — один из основателей обучения ^[1] с подкреплением ^[2], лауреат премии Тьюринга — заявил, что индустрия ИИ потеряла ориентиры.

«ИИ стал гигантской индустрией, и в каком‑то смысле он сбился с пути», — пишет Саттон ^[3]. По его словам, последние достижения игнорируют фундаментальные принципы, необходимые для создания настоящего интеллекта ^[4].

Учёный призывает к «возврату на курс»: «Что нужно, чтобы снова выйти на дорогу к подлинному разуму? Нам нужны агенты, которые учатся непрерывно. Нам нужны модели мира и планирование. Нам нужны знания, которые можно постигать на высоком уровне. Нам нужно уметь учиться обобщать».

Саттон, работающий в Google DeepMind, присоединился к ряду исследователей, критикующих одержимость отрасли масштабированием LLM. Он убеждён: настоящий интеллект рождается из опыта ^[5] — из взаимодействия агента с окружающей средой. Недавно вместе с Дэвидом Сильвером он опубликовал статью, где утверждает: ИИ должен учиться действием, а не просто поглощать бесконечные массивы текста.

По мнению Саттона, современные модели устроены противоположным образом: знания в них внедряются на этапе проектирования, а не рождаются в процессе познания. Он вновь ссылается на свою знаменитую «горькую истину» ^[6]: в ИИ побеждают масштабируемые универсальные методы, а не искусственно сконструированные человеком знания.

Путь Саттона к сверхинтеллекту

Главная беда сегодняшних систем, по его словам, в том, что они не умеют учиться без остановки. Их преследует катастрофическое забывание ^[7]: новое знание вытесняет старое и в итоге модель теряет способность к долговременному обучению.

Чтобы преодолеть это, Саттон предлагает архитектуру Oak (Options and Knowledge — «Опции и знание») — фреймворк для создания агентов, способных достичь сверхинтеллекта через опыт.

Oak строится на трёх принципах. Во‑первых, агент должен быть универсальным, без заранее заданного багажа знаний о мире. Во‑вторых, всё обучение должно происходить исключительно через опыт: наблюдение, действие, получение вознаграждения. В‑третьих, действует гипотеза вознаграждения: любую цель можно свести к максимизации простого сигнального отклика.

В центре Oak — самоподдерживающийся цикл: агент создаёт более высокоуровневые абстракции благодаря обратной связи. Те характеристики, что помогают планировать и решать задачи, становятся основой для ещё более абстрактного уровня знаний. Этот процесс открыт и теоретически бесконечен — ограничивает его лишь вычислительная мощность. И именно он, по мнению Саттона, может проложить дорогу к сверхразуму.

Но пока Oak остаётся мечтой. Всё упирается в отсутствие алгоритмов, которые позволили бы учиться непрерывно, стабильно и без потери накопленных знаний. Надёжное «вечное обучение» — вот недостающий фрагмент пазла, уверен учёный. Полную техническую лекцию Саттона можно посмотреть здесь ^[8].

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News ^[9].

Автор: dmitrifriend

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18551

URLs in this post:

[1] обучения: http://www.braintools.ru/article/5125

[2] подкреплением: http://www.braintools.ru/article/5528

[3] пишет Саттон: https://x.com/RichardSSutton/status/1957501548214513897

[4] интеллекта: http://www.braintools.ru/article/7605

[5] опыта: http://www.braintools.ru/article/6952

[6] «горькую истину»: http://www.incompleteideas.net/IncIdeas/BitterLesson.html

[7] забывание: http://www.braintools.ru/article/3931

[8] здесь: https://www.youtube.com/live/XqYTQfQeMrE?t=22620s

[9] BotHub AI News: https://t.me/bothub

[10] Источник: https://habr.com/ru/companies/bothub/news/939170/?utm_source=habrahabr&utm_medium=rss&utm_campaign=939170

Нажмите здесь для печати.