- BrainTools - https://www.braintools.ru -
Весной исследователи из Университета Цинхуа, Пекинского института общего искусственного интеллекта [1] и Пенсильванского университета представили Absolute Zero Reasoner — систему, в которой языковая модель сама генерирует себе задачи, решает их и учится на результатах. Модели Qwen на 7 и 14 млрд параметров после такого обучения [2] превзошли аналоги, натренированные на отобранных людьми датасетах. Как рассказывает Wired, теперь подход подхватывают [3] крупные компании.

Механика выглядит так: модель придумывает задачу на Python, пытается ее решить, затем запускает код для проверки. Успех или провал становится сигналом для обучения. Цикл повторяется — и с каждой итерацией модель учится и лучше решать задачи, и лучше их формулировать. Человек в этом процессе не участвует вообще.
“Сначала ты подражаешь родителям и делаешь как учителя, но потом начинаешь задавать собственные вопросы — и в итоге можешь превзойти тех, кто тебя учил”, — объясняет логику [4] подхода Эндрю Чжао, аспирант Университета Цинхуа и автор идеи Absolute Zero.
Сама концепция self-play не нова. DeepMind использовала ее еще в 2017 году в AlphaZero — системе, которая за 9 часов игры с собой научилась обыгрывать лучшие шахматные движки мира. Однако AlphaZero работала в закрытом мире с фиксированными правилами. Absolute Zero делает шаг дальше: здесь нет заранее заданных задач — модель сама формулирует, чему учиться.
Правда, пока это работает только там, где результат можно проверить автоматически, — код и математика [5]. Но авторы планируют расширить подход на агентные задачи: веб-серфинг, работу с документами. «Как только мы это сделаем, это станет путём к сверхинтеллекту», — считает Цзылун Чжэн, исследователь из BIGAI.
Похожие идеи уже тестируют крупные лаборатории. Salesforce совместно со Стэнфордом представила Agent0 — агента, который улучшает себя через self-play. Meta* (признана экстремистской и запрещена в РФ), Иллинойский университет и Карнеги-Меллон опубликовали работу о самообучающихся агентах для разработки ПО — авторы прямо называют ее “первым шагом к сверхинтеллектуальным софтверным агентам”. На фоне дефицита качественных данных для обучения такие подходы могут стать главным трендом года.
P.S. Поддержать меня можно подпиской на канал “сбежавшая нейросеть [6]“, где я рассказываю про ИИ с творческой стороны.
Автор: runaway_llm
Источник [7]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/24179
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] обучения: http://www.braintools.ru/article/5125
[3] подхватывают: https://www.wired.com/story/ai-models-keep-learning-after-training-research/
[4] логику: http://www.braintools.ru/article/7640
[5] математика: http://www.braintools.ru/article/7620
[6] сбежавшая нейросеть: https://t.me/ai_exee
[7] Источник: https://habr.com/ru/news/984156/?utm_source=habrahabr&utm_medium=rss&utm_campaign=984156
Нажмите здесь для печати.