- BrainTools - https://www.braintools.ru -

Меньше надзора, больше эффективности: AI модели обобщают данные сами

Исследование Гонконгского университета и Калифорнийского университета в Беркли показало, что языковые модели лучше обобщают [1], если им позволить самостоятельно находить решения. Это касается как больших языковых моделей [2](LLM), так и моделей, которые совмещают текст и изображения (VLM). Эти результаты ставят под сомнение одно из главных убеждений сообщества — что моделям нужно много примеров с ручной разметкой для обучения [3]. На самом деле, исследователи доказали, что слишком много таких примеров может даже ухудшить способность моделей к обобщению новых данных.

Меньше надзора, больше эффективности: AI модели обобщают данные сами - 1

Долгое время основным методом дообучения считалось дообучение с учителем (SFT). После первоначального обучения модели на текстах и изображениях, компании обычно дообучают её на большом количестве примеров в формате вопрос/ответ или запрос/ответ. После SFT модель может пройти дополнительные этапы, например, обучение с подкреплением от человека [4] (RLHF), где она учится лучше понимать человеческие предпочтения на основе оценок ответов.

SFT помогает настраивать модель для выполнения конкретных задач, однако сбор данных с ручной разметкой — это долгий и дорогостоящий процесс. Это замедляет развитие для многих компаний и лабораторий. Недавние разработки в области LLM привели к росту интереса [5] к подходам, основанным на чистом обучении с подкреплением [6] (RL). В таких подходах модель учится выполнять задачи самостоятельно, без заранее размеченных примеров. Один из главных примеров — DeepSeek-R1 [7], который в основном полагался на RL для освоения сложных задач.

Меньше надзора, больше эффективности: AI модели обобщают данные сами - 2

Одной из основных проблем машинного обучения (ML) является переобучение. Модель хорошо работает на обучающих данных, но не может обобщать на новые примеры. В процессе обучения может казаться, что модель освоена, хотя на деле она просто запомнила тренировочные примеры. В крупных AI-моделях трудно отличить обобщение от запоминания [8].

Новое исследование сосредоточено на сравнении способностей RL и SFT в задачах текстовых и визуальных рассуждений. В текстовых задачах LLM должна уметь обобщать правила на их варианты. В визуальных задачах VLM должна показывать стабильные результаты при изменении визуальных характеристик, таких как цвет или расположение объектов.

В рамках экспериментов использовались две задачи. Первая — GeneralPoints, оценивающая способности модели в арифметике. Модели давали четыре карты в виде текстов или изображений, и просили собрать их так, чтобы получить заданное число. Для оценки способности обобщать, модель обучалась на одном наборе правил, а тестировалась на другом. Визуальная часть теста проверяла способность работать с картами разных цветов.

Вторая задача — V-IRL [9], тестировала пространственное мышление [10] модели в условиях открытого мира с реалистичным визуальным вводом. Эта задача имела языковую и визуально-языковую версии. Исследователи оценивали обобщение, изменяя инструкции и визуальные представления, на которых модель была обучена.

Меньше надзора, больше эффективности: AI модели обобщают данные сами - 3

Они протестировали Llama-3.2-Vision-11B, обучив её на небольшом наборе данных SFT, а затем создали разные версии для каждой задачи и способа обучения. Для каждой задачи они отдельно масштабировали обучение на основе RL и SFT. SFT дообучает модель на ручных решениях, а RL позволяет модели генерировать собственные решения, проверять их и обучаться на правильных ответах.

Результаты показали, что обучение с подкреплением последовательно улучшало работу модели на примерах, которые сильно отличались от тренировочных данных. В то же время, SFT приводил к тому, что модель запоминала тренировочные правила и плохо справлялась с новыми задачами. Эти выводы касаются как текстовых, так и мультимодальных задач.

Модели, обученные с помощью SFT (supervised fine-tuning), показывают хорошие результаты на примерах из обучающей выборки (in-distribution), но их производительность значительно падает на новых, ранее не встречавшихся данных (out-of-distribution), источник: arXiv

Модели, обученные с помощью SFT (supervised fine-tuning), показывают хорошие результаты на примерах из обучающей выборки (in-distribution), но их производительность значительно падает на новых, ранее не встречавшихся данных (out-of-distribution), источник: arXiv

Хотя RL лучше обобщал, чем SFT, исследователи также обнаружили, что SFT стабилизирует выводы модели и необходим для того, чтобы RL достигал своих результатов. Без начального этапа SFT, RL не давал желаемых результатов.

Это отличается от результатов, полученных в DeepSeek-R1-Zero, который использовал только RL. Исследователи считают, что это может быть связано с разными архитектурами моделей.

Очевидно, что у подходов с упором на RL большой потенциал. В ситуациях, где важны проверяемые результаты, обучение моделей без примеров может привести к неожиданным решениям, которые невозможно создать вручную. Это особенно полезно там, где создание размеченных примеров занимает много времени и ресурсов.

Источник [11]

Автор: cognitronn

Источник [12]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12191

URLs in this post:

[1] обобщают: https://arxiv.org/abs/2501.17161

[2] больших языковых моделей : https://venturebeat.com/ai/anthropic-ceo-dario-amodei-warns-ai-will-match-country-of-geniuses-by-2026/

[3] обучения: http://www.braintools.ru/article/5125

[4] обучение с подкреплением от человека: https://bdtechtalks.com/2023/01/16/what-is-rlhf/

[5] интереса: http://www.braintools.ru/article/4220

[6] подкреплением: http://www.braintools.ru/article/5528

[7] DeepSeek-R1: https://venturebeat.com/ai/open-source-deepseek-r1-uses-pure-reinforcement-learning-to-match-openai-o1-at-95-less-cost/

[8] запоминания: http://www.braintools.ru/article/722

[9] V-IRL: https://virl-platform.github.io/

[10] мышление: http://www.braintools.ru/thinking

[11] Источник: https://venturebeat.com/ai/less-supervision-better-results-study-shows-ai-models-generalize-more-effectively-on-their-own/

[12] Источник: https://habr.com/ru/companies/bothub/news/882354/?utm_source=habrahabr&utm_medium=rss&utm_campaign=882354

www.BrainTools.ru

Rambler's Top100