- BrainTools - https://www.braintools.ru -

Команда исследователей Adobe предложила новый метод обучения [1] генеративных моделей — RL-ZVP (Reinforcement Learning with Zero Variance Prompts), который переосмысливает роль так называемых нулевых промптов, где все сэмплированные ответы оказываются одинаково хорошими или одинаково плохими. Традиционно такие примеры в обучении просто отбрасывали как бесполезные, но учёные Adobe доказали, что в них есть важная информация и разработали метод, превращающий её в положительный учебный сигнал.

Идея RL-ZVP состоит в том, чтобы трактовать отсутствие разброса ответов как индикатор уверенности модели. Если все варианты хороши, это подтверждение корректности поведения [2]; если все плохи — чёткая метка ошибки [3]. На основе этой логики алгоритм масштабирует обновления по энтропии: неуверенные токены получают более сильные корректировки, очевидные — слабее. Такая схема позволяет извлечь пользy из ~50% ранее неиспользуемых обучающих шагов и повысить стабильность обучения.

В экспериментальной проверке RL-ZVP показал значимый прирост. Точность выросла примерно на 8,6 процентных пункта, а pass rate на 7,8 пункта по сравнению с популярными методами вроде GRPO. При этом метод не требует больших дополнительных вычислительных затрат, что делает его привлекательным для практического применения в индустрии: компании могут повышать качество моделей, не умножая расходы на обучение.
RL-ZVP даёт путь к более надёжным и предсказуемым ИИ-системам, особенно в задачах, где стабильность ответов критична (медицина, финансы, юриспруденция). В то же время метод поднимает вопросы проверки и валидации. Как отличать униформа-ошибку от объективного ограничения датасета и как не усилить нежелательные шаблоны. Adobe подчёркивает, что RL-ZVP — не универсальное решение, а мощный инструмент в арсенале обучения, который лучше всего работает в сочетании с прочими техниками контроля качества.
Делегируйте часть рутинных задач вместе с BotHub! [4] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [5] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [6]
Автор: cognitronn
Источник [7]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20611
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] поведения: http://www.braintools.ru/article/9372
[3] ошибки: http://www.braintools.ru/article/4192
[4] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=GOOGLE%20CLOUD%20PUBLISHED%20101%20REAL-WORLD%20CASES%20OF%20GENERATIVE%20AI%20APPLICATIONS
[5] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[6] Источник: https://arxiv.org/html/2509.21880v1
[7] Источник: https://habr.com/ru/companies/bothub/news/955866/?utm_source=habrahabr&utm_medium=rss&utm_campaign=955866
Нажмите здесь для печати.