«Если ты такой глупый, то почему такой богатый?»
Результаты исследования, в рамках которого моделировалось распределение денег в обществе и определялся основной фактор, ведущий к богатству.Мировое распределение богатства подчиняется правилу Парето: 80% богатства сосредоточено в руках 20% людей. Более того, исследования показывают, что состояние 10 самых богатых людей мира сопоставимо с состоянием 4 млрд самых бедных. Эта закономерность встречается в разных сферах жизни, но при распределении богатства она вызывает больше всего споров.
Селективная генерализация: улучшение возможностей при сохранении alignment
TL;DR: Мы провели бенчмаркинг семи методов, направленных на предотвращение эмерджентного рассогласования и других форм некорректного обобщения с использованием ограниченного объёма alignment-данных. Мы демонстрируем устойчивый трейдофф между способностями модели и согласованием, подчеркивая необходимость более эффективных методов для снижения этого конфликта. Простое включение alignment-данных в микс обучающих данных оказывается недостаточным для предотвращения рассогласования, однако простое наложение KL Divergence penalty на alignment-данные показывает лучшие результаты, чем более сложные подходы.
GEPA вместо RL: как рефлексивная эволюция промптов обгоняет обучение с подкреплением
АннотацияБольшие языковые модели (LLMs) всё чаще адаптируются к downstream-задачам с помощью методов RL, таких как Group Relative Policy Optimization (GRPO), которые нередко требуют тысячи прогонов для освоения новых задач. Мы утверждаем, что интерпретируемая природа языка может предоставлять LLM куда более богатую обучающую среду по сравнению с policy gradient’ами, основанными на разреженных скалярных наградах.

