- BrainTools - https://www.braintools.ru -

Ричард Саттон — один из основателей обучения [1] с подкреплением [2], лауреат премии Тьюринга — заявил, что индустрия ИИ потеряла ориентиры.
«ИИ стал гигантской индустрией, и в каком‑то смысле он сбился с пути», — пишет Саттон [3]. По его словам, последние достижения игнорируют фундаментальные принципы, необходимые для создания настоящего интеллекта [4].
Учёный призывает к «возврату на курс»: «Что нужно, чтобы снова выйти на дорогу к подлинному разуму? Нам нужны агенты, которые учатся непрерывно. Нам нужны модели мира и планирование. Нам нужны знания, которые можно постигать на высоком уровне. Нам нужно уметь учиться обобщать».
Саттон, работающий в Google DeepMind, присоединился к ряду исследователей, критикующих одержимость отрасли масштабированием LLM. Он убеждён: настоящий интеллект рождается из опыта [5] — из взаимодействия агента с окружающей средой. Недавно вместе с Дэвидом Сильвером он опубликовал статью, где утверждает: ИИ должен учиться действием, а не просто поглощать бесконечные массивы текста.
По мнению Саттона, современные модели устроены противоположным образом: знания в них внедряются на этапе проектирования, а не рождаются в процессе познания. Он вновь ссылается на свою знаменитую «горькую истину» [6]: в ИИ побеждают масштабируемые универсальные методы, а не искусственно сконструированные человеком знания.
Главная беда сегодняшних систем, по его словам, в том, что они не умеют учиться без остановки. Их преследует катастрофическое забывание [7]: новое знание вытесняет старое и в итоге модель теряет способность к долговременному обучению.
Чтобы преодолеть это, Саттон предлагает архитектуру Oak (Options and Knowledge — «Опции и знание») — фреймворк для создания агентов, способных достичь сверхинтеллекта через опыт.
Oak строится на трёх принципах. Во‑первых, агент должен быть универсальным, без заранее заданного багажа знаний о мире. Во‑вторых, всё обучение должно происходить исключительно через опыт: наблюдение, действие, получение вознаграждения. В‑третьих, действует гипотеза вознаграждения: любую цель можно свести к максимизации простого сигнального отклика.
В центре Oak — самоподдерживающийся цикл: агент создаёт более высокоуровневые абстракции благодаря обратной связи. Те характеристики, что помогают планировать и решать задачи, становятся основой для ещё более абстрактного уровня знаний. Этот процесс открыт и теоретически бесконечен — ограничивает его лишь вычислительная мощность. И именно он, по мнению Саттона, может проложить дорогу к сверхразуму.
Но пока Oak остаётся мечтой. Всё упирается в отсутствие алгоритмов, которые позволили бы учиться непрерывно, стабильно и без потери накопленных знаний. Надёжное «вечное обучение» — вот недостающий фрагмент пазла, уверен учёный. Полную техническую лекцию Саттона можно посмотреть здесь [8].
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News [9].
Автор: dmitrifriend
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18551
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] подкреплением: http://www.braintools.ru/article/5528
[3] пишет Саттон: https://x.com/RichardSSutton/status/1957501548214513897
[4] интеллекта: http://www.braintools.ru/article/7605
[5] опыта: http://www.braintools.ru/article/6952
[6] «горькую истину»: http://www.incompleteideas.net/IncIdeas/BitterLesson.html
[7] забывание: http://www.braintools.ru/article/3931
[8] здесь: https://www.youtube.com/live/XqYTQfQeMrE?t=22620s
[9] BotHub AI News: https://t.me/bothub
[10] Источник: https://habr.com/ru/companies/bothub/news/939170/?utm_source=habrahabr&utm_medium=rss&utm_campaign=939170
Нажмите здесь для печати.