Топовые работы на ICLR 2025

Аналитический центр red_mad_robot продолжает обозревать топовые технологические конференции. В этот раз подготовили для вас инсайты с прошедшей в Сингапуре International Conference on Learning Representations (ICLR), посвящённой искусственному интеллекту ^[1] и машинному обучению ^[2].

На ICLR 2025 из более 3 тыс. работ наивысшие оценки получили ^[3] 36 статей, из которых три были отмечены как «outstanding papers». Разберём выдающиеся работы этого года, а также достойные упоминания и получившие высокие оценки.

Выдающиеся работы

Safety Alignment Should be Made More Than Just a Few Tokens Deep ^[4]
В статье исследователи из Princeton University и Google DeepMind ввели понятие «shallow safety alignment». Они утверждают, что меры безопасности в моделях часто поверхностны и применяются лишь к нескольким конкретным словам или начальным токенам. Так, модель может начать ответ с безопасной фразы, а затем выдать нежелательную информацию, что делает её уязвимой для атак.

Авторы предлагают более глубокие меры безопасности — deepening safety alignment:

оценивать намерения запроса, а не одни токены
настраивать не только последние слои, отвечающие за генерацию текста, но и ранние — на этапе понимания контекста;
учиться противостоять вредным запросам в процессе обучения.

Эксперименты внедрения deep safety alignment показывают более предсказуемое и надёжное поведение ^[5] модели, рост устойчивости к jailbreak-атакам и однородную безопасность ответов.

Learning Dynamics of LLM Finetuning ^[6]
Фреймворк от University of British Columbia и Alberta Machine Intelligence Institute исследует, как разные методы дообучения (SFT ^[7], DPO ^[8]) приводят к непредсказуемым изменениям в выводах моделей.

Из наблюдений:

Во-первых, дообучение по методу DPO часто приводит к эффекту сжатия — Squeezing Effect — когда модель слишком фокусируется на определенных типах ответов и может игнорировать более подходящие варианты.
Во-вторых, после дообучения модель может использовать фразы или факты из одного вопроса при ответе на другой, а также повторять ^[9] одинаковые простые фразы.

Авторы предлагают включать в SFT как положительные, так и отрицательные примеры для снижения проблем со сжатием и галлюцинациями. Применение такого метода повышает стабильность обучения и качество ответов.

AlphaEdit: Null-Space Constrained Model Editing for Language Models ^[10]
Исследователи из University of Science and Technology of China и National University of Singapore представили AlphaEdit — способ точечного редактирования знаний в LLM, который не затрагивает уже сохраненную информацию. Модель проецирует изменения параметров в «нулевое пространство» (null-space), которое не влияет на правильные знания — исправления вносятся только в нужные части модели.

В ходе экспериментов AlphaEdit улучшила производительность редактирования моделей на 36.7%, требуя всего одну дополнительную строку кода для проекции изменений в «нулевом пространстве».

Работы, достойные упоминания

Data Shapley in One Training Run ^[11]
Учёные из Princeton University, University of California, Berkeley и Virginia Tech разработали «In-Run Data Shapley» — улучшенный подход для оценки пользы разных элементов данных при обучении модели. Он отслеживает влияние каждого обучающего примера на общую производительность — без необходимости многократного переобучения модели с разными подмножествами данных, как это было в предыдущей версии Data Shaple.

SAM 2: Segment Anything in Images and Videos ^[12]
Meta FAIR (запрещена в России) представила усовершенствованную версию Segment Anything Model (SAM). Новая версия модели с высокой скоростью и точностью сегментирует объекты — в шесть раз быстрее на изображениях и в три раза на видео — чем это делали предшественники. SAM 2 может сегментировать даже неизвестные заранее объекты, а также работать по пользовательскому промпту. Продвинутая система памяти ^[13] SAM 2 позволяет учитывать информацию из предыдущих кадров, что улучшает сегментацию в сложных сценах с перекрытиями или временным исчезновением объектов.

Faster Cascades via Speculative Decoding ^[14]
Исследователи из Google Research объединили преимущества двух подходов «cascades» и «speculative decoding» в единый «speculative cascades», чтобы ускорить генерацию текста в LLM. В новом подходе маленькая модель сначала «предсказывает» несколько вариантов продолжения текста, а затем большая модель корректирует или подтверждает эти варианты — так получается улучшить качество и скорость ответов.

Ещё больше аналитики и исследований в нашем телеграм-канале ^[15]

Работы, получившие высокие оценки

Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport ^[16]
Stanford University и Hong Kong University of Science and Technology предложили метод Imposing Consistent Light для лучшей редактуры освещения на изображениях. IC-Light основывается на физическом принципе согласованного светового переноса и помогает модели фокусироваться только на освещении, не изменяя другие свойства изображения.

Simplifying, Stabilizing and Scaling Continuous-time Consistency Models ^[17]
OpenAI представила sCM (scaled consistency model) — улучшенную версия Consistency Model — она генерирует высококачественные изображения или короткие видео за 0,11 секунды на одном графическом процессоре A100, обучаясь с помощью 1,5 млрд параметров. Качество сгенерированных образцов сопоставимо с лучшими диффузионными моделями.

Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models ^[18]
Исследователи из U. Politècnica de Catalunya, Barcelona Supercomputing Center и ETH Zürich системно подошли к вопросу, как LLM «осознают» свои знания и почему иногда «галлюцинируют». Они собрали датасет с четырьмя различными типами сущностей и задали модели вопросы об атрибутах каждой. По итогу создался двоичный лейбл: «известные» и «неизвестные».

Далее разреженные автоэнкодеры (SAE) проанализировали внутренние представления модели. Они обнаружили у модели формы самоосознания относительно своих знаний — определённые направления, которые активируются, когда модель сталкивается с известной или неизвестной сущностью. Этими направлениям можно манипулировать — модель можно заставить отказаться от ответов на вопросы об известных сущностях или, наоборот, сгенерировать ранее неизвестную информацию.

Artificial Kuramoto Oscillatory Neurons ^[19]
University of Tübingen и University of Amsterdam представили Artificial Kuramoto Oscillatory Neurons (AKOrN) — новый подход к построению нейросетей, вдохновлённый синхронным поведением ^[20] биологических нейронов.

Нейроны ^[21] в AKOrN обладают динамическим осцилляторным поведением: фаза их внутреннего состояния меняется во времени, что позволяет им синхронизироваться и формировать согласованные представления данных. Каждый осциллятор имеет собственную частоту, и его «подталкивают» входные данные, что обеспечивает динамическую и контекстно-зависимую обработку информации.

BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions ^[22]
BigCodeBench — бенчмарк для оценки работы LLM в сложных задачах программирования, требующих многократного вызова функций и композиционного мышления ^[23]. Для оценки используются два варианта: BigCodeBench-Complete — задачи с подробными структурированными описаниями функций и BigCodeBench-Instruct — задачи с короткими естественно-языковыми инструкциями, которые сложнее для моделей.

В эксперименте лучшие модели решали не более 60% задач в BigCodeBench-Complete и менее 50% в BigCodeBench-Instruct, что значительно ниже человеческого уровня (~97%). Это показывает, что современные LLM пока не умеют точно следовать сложным инструкциям и эффективно использовать множество функций из разных библиотек.

Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models ^[24]
Stanford University разработал Cybench — бенчмарк из 40 профессиональных задач из разных соревнований, предназначенный для оценки способности LLM-агентов выявлять уязвимости и выполнять эксплойты в реалистичных сценариях. Результаты исследования показали, что передовые модели могут успешно решать задачи, которые занимают у человека до 11 минут времени — более сложные задачи пока непреодолимы без дополнительной помощи.

Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment ^[25]
Korea Advanced Institute of Science and Technology (KAIST) и Yonsei University предложили метод Spread Preference Annotation (SPA), который повышает качество ответов LLM при минимальном количестве вводных данных — нужно лишь 3.3% от объёма данных, необходимых традиционным методам для сопоставимого качества.

SPA дообучается на небольшом объеме исходных данных, затем модель генерирует ответы и сама выставляет им оценки, определяя лучшие варианты. Эти оценки используются как новые метки предпочтений, расширяя обучающую выборку без дополнительной ручной разметки. Кроме того, внедряется алгоритм, учитывающий возможный шум и ошибки ^[26] в автоматически сгенерированных метках, что повышает надежность обучения. Процесс повторяется — модель генерирует новые данные, учится на них и становится лучше.

LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization ^[27]
UCLA, Google и UT Austin представили LoRA-RITE — новый метод оптимизации LoRA, который обеспечивает инвариантность к преобразованиям. Обновления весов не зависят от масштабирования или поворота двух матриц-факторов LoRA, что ведет к эффективному обучению при низких вычислительных затратах. Точность LoRA-RITE выше чем у других оптимизаторов примерно на 5%.

OLMoE: Open Mixture-of-Experts Language Models ^[28]
OLMoE — метод создания модели, использующий разреженные смеси экспертов (Mixture-of-Experts, MoE). Создание OLMoE-моделей основано на декодер-трансформере с заменой плотных слоёв на MoE-модули, состоящие из экспертов. Маршрутизатор управляет экспертами — выбирает кого активировать для обработки входящих токенов. Обучение OLMoE-моделей проходит примерно в два раза быстрее чем у плотных моделей с тем же числом активных параметров.

Над материалом работали

текст — Валера Горланов

редактура — Игорь Решетников

иллюстрации — Петя Галицкий

Автор: redmadrobot

Источник ^[29]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15400

URLs in this post:

[1] интеллекту: http://www.braintools.ru/article/7605

[2] обучению: http://www.braintools.ru/article/5125

[3] получили: https://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/

[4] Safety Alignment Should be Made More Than Just a Few Tokens Deep: https://openreview.net/forum?id=6Mxhg9PtDE

[5] поведение: http://www.braintools.ru/article/9372

[6] Learning Dynamics of LLM Finetuning: https://openreview.net/forum?id=tPNHOoZFl9

[7] SFT: https://huggingface.co/docs/trl/en/sft_trainer

[8] DPO: https://huggingface.co/docs/trl/en/dpo_trainer

[9] повторять: http://www.braintools.ru/article/4012

[10] AlphaEdit: Null-Space Constrained Model Editing for Language Models: https://openreview.net/forum?id=HvSytvg3Jh

[11] Data Shapley in One Training Run: https://openreview.net/forum?id=HD6bWcj87Y

[12] SAM 2: Segment Anything in Images and Videos: https://openreview.net/forum?id=Ha6RTeWMd0

[13] памяти: http://www.braintools.ru/article/4140

[14] Faster Cascades via Speculative Decoding: https://openreview.net/forum?id=vo9t20wsmd

[15] телеграм-канале: https://t.me/+ohm0eWzgTSA2NmY6

[16] Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport: https://openreview.net/forum?id=u1cQYxRI1H

[17] Simplifying, Stabilizing and Scaling Continuous-time Consistency Models: https://openreview.net/forum?id=LyJi5ugyJx

[18] Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models: https://openreview.net/forum?id=WCRQFlji2q

[19] Artificial Kuramoto Oscillatory Neurons: https://openreview.net/forum?id=nwDRD4AMoN

[20] поведением: http://www.braintools.ru/article/5593

[21] Нейроны: http://www.braintools.ru/article/9161

[22] BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions: https://openreview.net/forum?id=YrycTjllL0

[23] мышления: http://www.braintools.ru/thinking

[24] Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risks of Language Models: https://openreview.net/forum?id=tc90LV0yRL

[25] Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment: https://openreview.net/forum?id=BPgK5XW1Nb

[26] ошибки: http://www.braintools.ru/article/4192

[27] LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization: https://openreview.net/forum?id=VpWki1v2P8

[28] OLMoE: Open Mixture-of-Experts Language Models: https://openreview.net/forum?id=xXTkbTBmqq

[29] Источник: https://habr.com/ru/companies/redmadrobot/articles/911228/?utm_source=habrahabr&utm_medium=rss&utm_campaign=911228

Нажмите здесь для печати.