Adobe представила способ обучения моделей. adobe.. adobe. ai.. adobe. ai. Блог компании BotHub.. adobe. ai. Блог компании BotHub. Будущее здесь.. adobe. ai. Блог компании BotHub. Будущее здесь. ИИ.. adobe. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. adobe. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. adobe. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. adobe. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. adobe. ai. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Adobe представила способ обучения моделей - 1

Команда исследователей Adobe предложила новый метод обучения генеративных моделей — RL-ZVP (Reinforcement Learning with Zero Variance Prompts), который переосмысливает роль так называемых нулевых промптов, где все сэмплированные ответы оказываются одинаково хорошими или одинаково плохими. Традиционно такие примеры в обучении просто отбрасывали как бесполезные, но учёные Adobe доказали, что в них есть важная информация и разработали метод, превращающий её в положительный учебный сигнал.

Adobe представила способ обучения моделей - 2

Идея RL-ZVP состоит в том, чтобы трактовать отсутствие разброса ответов как индикатор уверенности модели. Если все варианты хороши, это подтверждение корректности поведения; если все плохи — чёткая метка ошибки. На основе этой логики алгоритм масштабирует обновления по энтропии: неуверенные токены получают более сильные корректировки, очевидные — слабее. Такая схема позволяет извлечь пользy из ~50% ранее неиспользуемых обучающих шагов и повысить стабильность обучения.

Adobe представила способ обучения моделей - 3

В экспериментальной проверке RL-ZVP показал значимый прирост. Точность выросла примерно на 8,6 процентных пункта, а pass rate на 7,8 пункта по сравнению с популярными методами вроде GRPO. При этом метод не требует больших дополнительных вычислительных затрат, что делает его привлекательным для практического применения в индустрии: компании могут повышать качество моделей, не умножая расходы на обучение.

RL-ZVP даёт путь к более надёжным и предсказуемым ИИ-системам, особенно в задачах, где стабильность ответов критична (медицина, финансы, юриспруденция). В то же время метод поднимает вопросы проверки и валидации. Как отличать униформа-ошибку от объективного ограничения датасета и как не усилить нежелательные шаблоны. Adobe подчёркивает, что RL-ZVP — не универсальное решение, а мощный инструмент в арсенале обучения, который лучше всего работает в сочетании с прочими техниками контроля качества.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100