- BrainTools - https://www.braintools.ru -
9 февраля на arXiv была опубликована [1] новая научная работа “LM2: Large Memory Models”, в которой исследователи описали обновление классической архитектуры LLM на базе трансформеров. LM2 превосходит как модель RMT с дополненной памятью [2] на 37.1%, так и базовую модель Llama-3.2 на 86,3% в среднем по задачам.
Исследователи из Convergence Labs представили Large Memory Model (LM2) – новую архитектуру языковых моделей, которая преодолевает ограничения традиционных трансформеров в обработке длинного контекста.
LM2 дополняет стандартный механизм внимания [3] отдельным модулем памяти, который взаимодействует с входными данными, отбирает важную информацию и обновляется по мере работы модели.

Ключевое отличие LM2 – дополнительный поток памяти, который дополняет стандартный поток внимания в трансформерах. Этот механизм включает:
Кросс-аттеншен между модулем памяти и входными данными.
Гейты управления (запись, забывание [4] и извлечение данных), позволяющие динамически обновлять хранимую информацию.
Разделение процессов обработки и хранения информации, что делает модель устойчивой к длинным контекстам.
Модель тестировалась на двух ключевых наборах данных:
BABILong – сложный бенчмарк для многоступенчатых рассуждений. LM2 показала прирост точности на 37,1% по сравнению с предыдущими архитектурами с улучшенной памятью.
MMLU – тест на общие знания. LM2 улучшила результаты на 5%, демонстрируя, что модуль памяти не мешает базовой работоспособности модели на универсальных задачах.
LM2 – очередной шаг вперед в развитии ИИ. Сейчас большое количество инвестиций идёт как раз в новые архитектуры – многие ожидают, что следующие грандиозные прорывы будут следствие не просто масштабирования (увеличения кол-ва параметров), а именно смены самой архитектурной парадигмы в LLM (что мы и видим на последних стрельнувших моделях).
Дополнительно к этому, один из главных трендов этого года – обучение ИИ без участия человека [5] (на синтетических данных). Интересно, какие ещё открытия ждут нас в этом году на пересечении этих подходов – архитектурных изменений с одной стороны, и ускорение за счет исключения ручного труда – с другой.
—-
P.S. Все громкие новости про ИИ, которые попадают в заголовки медиа обычно вырастают из таких “тихих” революционных исследований. Чтобы узнавать о них раньше всех надо регулярно мониторить HuggingFace Daily papers [6]/arXiv recents [7]/GitHub Trending [8]/прочие исследовательские площадки.
Я делаю это на ежедневной основе, и если нахожу такие алмазы – пишу про них у себя в Телеграм канале [9], вместе с глубокой аналитикой по тому, как это всё влияет на бизнес.
Автор: ElKornacio
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12111
URLs in this post:
[1] была опубликована: https://arxiv.org/abs/2502.06049
[2] памятью: http://www.braintools.ru/article/4140
[3] внимания: http://www.braintools.ru/article/7595
[4] забывание: http://www.braintools.ru/article/3931
[5] обучение ИИ без участия человека: https://t.me/elkornacio/137
[6] HuggingFace Daily papers: https://huggingface.co/papers
[7] arXiv recents: https://arxiv.org/list/cs/recent
[8] GitHub Trending: https://github.com/trending
[9] у себя в Телеграм канале: https://t.me/+D3rczrDV9w40N2Zi
[10] Источник: https://habr.com/ru/news/881548/?utm_source=habrahabr&utm_medium=rss&utm_campaign=881548
Нажмите здесь для печати.