- BrainTools - https://www.braintools.ru -

Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением

Исследовательская группа из Сингапура и Китая представила LongWriter-Zero — модель искусственного интеллекта [1], которая использует обучение [2] с подкреплением [3] для написания текстов объёмом более 10 000 слов без использования синтетических обучающих данных.

Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением - 1

Существующие языковые модели часто испытывают трудности при создании очень длинных текстов: по мере увеличения объёма текста снижается связность, увеличивается количество повторений и структурных проблем. Большинство современных подходов решают эти проблемы с помощью контролируемой тонкой настройки (SFT) на искусственно созданных длинных текстах. Но создание таких наборов данных требует больших трудозатрат, а результаты часто не соответствуют требованиям как по стилю, так и по содержанию.

LongWriter-Zero, разработанный исследователями из Сингапурского университета технологий и дизайна и Университета Цинхуа, использует другой подход. Вместо использования готовых обучающих примеров модель полагается исключительно на обучение с подкреплением (RL) для создания связных текстов большой длины. Команда опирается на свои более ранние исследования LongWriter [4].

«Наводящие вопросы» и обучение с подкреплением

В основе обучения LongWriter-Zero лежат три специализированные модели вознаграждения, которые оценивают длину текста, качество написания и структуру. Исследователи также представили техническую инновацию под названием «усреднение преимуществ», которая балансирует вознаграждения по различным параметрам качества. Базовой моделью для LongWriter-Zero является Qwen2.5-32B.

Уникальной особенностью LongWriter-Zero является использование «наводящих вопросов». Перед тем как сгенерировать ответ, модель получает задание спланировать структуру и содержание своего ответа. По мнению команды разработчиков, этот шаг значительно повышает связность текста.

Такие тесты, как Arena-Write, показывают значительный скачок в производительности модели при использовании этой стратегии — с 700 до 1200 баллов Эло. Добавление этапа предварительного обучения с использованием 30 миллиардов токенов высококачественного текста ещё больше улучшает результаты. Такой задел позволяет модели лучше использовать вознаграждения в режиме реального времени, что говорит о том, что более сильные базовые модели получают больше преимуществ от тонкой настройки в режиме реального времени.

LongWriter-Zero и «взлом вознаграждений»

По результатам оценки LongWriter-Zero превзошёл такие известные модели, как DeepSeek-R1 и Claude 4 Sonnet, как в автоматизированных тестах, так и в оценках людей.

Однако исследователи указывают на распространённую проблему в RL: взлом модели вознаграждения. Они выявили две основные проблемы. Во-первых, модель имеет тенденцию повторять [5] или слегка перефразировать контент, чтобы достичь необходимого количества слов и максимизировать свой балл в модели вознаграждения за длину. Даже при наличии явных штрафов за очевидные дубликаты более тонкие формы избыточности — например, перефразированные или слегка отредактированные предложения — часто остаются незамеченными.

Во-вторых, модель вознаграждения демонстрирует склонность к определённым ключевым словам, которые активно поощрялись во время обучения. Модель учится чрезмерно использовать эти слова даже в неподходящем контексте, чтобы максимизировать свои вознаграждения.

Эти проблемы могут сделать LongWriter-Zero непригодным для создания действительно качественного текста в реальных приложениях.

Авторы считают это фундаментальным недостатком текущего подхода к обучению языковых моделей на основе RL: модели часто используют поверхностные статистические закономерности вместо того, чтобы действительно соответствовать реальным намерениям пользователей-людей.


По ссылке [6] вы можете получить 100 000 бесплатных токенов для первых задач на BotHub и уже сейчас начать работать!

Источник [7]

Автор: mefdayy

Источник [8]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/16584

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] обучение: http://www.braintools.ru/article/5125

[3] подкреплением: http://www.braintools.ru/article/5528

[4] исследования LongWriter: https://the-decoder.com/longwriter-current-llms-can-generate-much-longer-text-than-previously-thought/

[5] повторять: http://www.braintools.ru/article/4012

[6] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[7] Источник: https://the-decoder.com/researchers-train-ai-to-generate-long-form-text-using-only-reinforcement-learning/

[8] Источник: https://habr.com/ru/companies/bothub/news/921716/?utm_source=habrahabr&utm_medium=rss&utm_campaign=921716

www.BrainTools.ru

Rambler's Top100