Adobe представила способ обучения моделей

Команда исследователей Adobe предложила новый метод обучения ^[1] генеративных моделей — RL-ZVP (Reinforcement Learning with Zero Variance Prompts), который переосмысливает роль так называемых нулевых промптов, где все сэмплированные ответы оказываются одинаково хорошими или одинаково плохими. Традиционно такие примеры в обучении просто отбрасывали как бесполезные, но учёные Adobe доказали, что в них есть важная информация и разработали метод, превращающий её в положительный учебный сигнал.

Adobe представила способ обучения моделей - 2

Идея RL-ZVP состоит в том, чтобы трактовать отсутствие разброса ответов как индикатор уверенности модели. Если все варианты хороши, это подтверждение корректности поведения ^[2]; если все плохи — чёткая метка ошибки ^[3]. На основе этой логики алгоритм масштабирует обновления по энтропии: неуверенные токены получают более сильные корректировки, очевидные — слабее. Такая схема позволяет извлечь пользy из ~50% ранее неиспользуемых обучающих шагов и повысить стабильность обучения.

Adobe представила способ обучения моделей - 3

В экспериментальной проверке RL-ZVP показал значимый прирост. Точность выросла примерно на 8,6 процентных пункта, а pass rate на 7,8 пункта по сравнению с популярными методами вроде GRPO. При этом метод не требует больших дополнительных вычислительных затрат, что делает его привлекательным для практического применения в индустрии: компании могут повышать качество моделей, не умножая расходы на обучение.

RL-ZVP даёт путь к более надёжным и предсказуемым ИИ-системам, особенно в задачах, где стабильность ответов критична (медицина, финансы, юриспруденция). В то же время метод поднимает вопросы проверки и валидации. Как отличать униформа-ошибку от объективного ограничения датасета и как не усилить нежелательные шаблоны. Adobe подчёркивает, что RL-ZVP — не универсальное решение, а мощный инструмент в арсенале обучения, который лучше всего работает в сочетании с прочими техниками контроля качества.

Делегируйте часть рутинных задач вместе с BotHub! ^[4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[5] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[6]

Автор: cognitronn

Источник ^[7]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20611

URLs in this post:

[1] обучения: http://www.braintools.ru/article/5125

[2] поведения: http://www.braintools.ru/article/9372

[3] ошибки: http://www.braintools.ru/article/4192

[4] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=GOOGLE%20CLOUD%20PUBLISHED%20101%20REAL-WORLD%20CASES%20OF%20GENERATIVE%20AI%20APPLICATIONS

[5] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[6] Источник: https://arxiv.org/html/2509.21880v1

[7] Источник: https://habr.com/ru/companies/bothub/news/955866/?utm_source=habrahabr&utm_medium=rss&utm_campaign=955866

Нажмите здесь для печати.