- BrainTools - https://www.braintools.ru -

Китайская LLaDa: как зашумленный текст превращается в осмысленный диалог – новая эра диффузионных языковых моделей

Китайская LLaDa: как зашумленный текст превращается в осмысленный диалог – новая эра диффузионных языковых моделей - 1

В этой статье расскажу о новом подходе – больших языковых диффузионных моделях (LLaDA).

Большие языковые диффузионные модели – альтернатива традиционным большим языковым моделям, которые генерируют текст токен за токеном. Метод диффузии сначала “зашумляет” текст, а затем модель обучается восстанавливать его целиком. Такие модели можно также использовать и для создания новых белков с заданными свойствами. Давайте подробнее разберем, как все это работает.

Большие языковые диффузионные модели: новая альтернатива авторегрессивным LLM

Большинство современных языковых моделей работают по принципу «предскажи следующий токен», то есть генерируют текст поэтапно. Но недавно китайские исследователи предложили другой подход [1] — использовать диффузию в LLM. Вместо пошагового предсказания модель сначала «зашумляет» текст, а затем обучается восстанавливать его целиком.

Концептуальный обзор LLaDA. (a) Предобучение. LLaDA обучается на тексте, где случайные маски применяются независимо ко всем токенам с одинаковым коэффициентом.(b) SFT. Маскированию подлежат только токены ответов.(c) Сэмплинг. LLaDA моделирует процесс диффузии, предсказывая все маски одновременно на каждом шаге с гибкими стратегиями перемаскировки

Концептуальный обзор LLaDA. (a) Предобучение. LLaDA обучается на тексте, где случайные маски применяются независимо ко всем токенам с одинаковым коэффициентом.(b) SFT. Маскированию подлежат только токены ответов.(c) Сэмплинг. LLaDA моделирует процесс диффузии, предсказывая все маски одновременно на каждом шаге с гибкими стратегиями перемаскировки
  • Процесс обучения [2]: Исходный текст постепенно “маскируется” (заменяется специальными токенами), и модель учится по шагам возвращать исходные слова. Таким образом, она изучает не только прямую последовательность слов, но и взаимосвязи между ними со всех сторон.

  • Дообучение: После базового обучения модель дообучали на 4,5 млн пар «вопрос–ответ», чтобы она лучше понимала инструкции и могла вести осмысленные диалоги.

  • Результаты: Модель LLaDA с 8 млрд параметров показывает результаты, сравнимые с лучшими существующими языковыми моделями в “своей весовой категории”. Например, на математической задаче GSM8K точность достигала 70,7%, а задачи, где требуется генерировать текст задом наперед («обратное рассуждение»), модель справлялась лучше, чем GPT‑4.

    Обученная с нуля LLaDA достигает конкурентоспособной производительности с другими большими языковыми моделями того же размера.

    Обученная с нуля LLaDA достигает конкурентоспособной производительности с другими большими языковыми моделями того же размера.

Почему это важно?

Диффузионный подход позволяет:

  • Генерировать текст параллельно, а не по токенам, что может ускорить работу LLM;

  • Улучшить качество вывода на сложных задачах, например, там, где нужно учитывать контекст с обеих сторон;

  • Открыть новые возможности для применения ИИ в мультимодальных задачах (например, совмещая текст и изображение).

Исследователи планируют масштабировать модели и добавить методы обучения с подкреплением [3], чтобы еще больше улучшить точность и соответствие ответов человеческим ожиданиям.

Как новая архитектура уже применяется в прикладных задачах?

Исследователи из MIT использовали большую языковую диффузионную модель для дизайна белков [4].

Белки — это сложные молекулярные машины, чьи функции зависят не только от их структуры, но и от того, как они двигаются. Традиционные методы дизайна белков обычно работают со статическими структурами, игнорируя их динамику. Ученые решили, что можно создать ИИ, который генерирует новые белковые последовательности с нужными динамическими свойствами. Что им удалось сделать?

Процесс разработки модели генерации белков с динамической сигнатурой включает два компонента: дизайнера белков (PD) и предсказателя белков (PP). Сначала собирается набор данных белков из PDB. Затем, используя диффузионную модель, PD генерирует разнообразные последовательности, а PP проверяет их соответствие целевым динамическим характеристикам. Итоговый анализ включает предсказание атомных структур (OmegaFold, AlphaFold2), оценку вторичных структур и молекулярную динамику для валидации дизайна.

Процесс разработки модели генерации белков с динамической сигнатурой включает два компонента: дизайнера белков (PD) и предсказателя белков (PP). Сначала собирается набор данных белков из PDB. Затем, используя диффузионную модель, PD генерирует разнообразные последовательности, а PP проверяет их соответствие целевым динамическим характеристикам. Итоговый анализ включает предсказание атомных структур (OmegaFold, AlphaFold2), оценку вторичных структур и молекулярную динамику для валидации дизайна.
  • Собрали данные: Сперва исследователи собрали набор из почти 13 тысяч белков из базы PDB и рассчитали для каждого белка «нормалные моды» — вектор амплитуд;

  • Разрабоали двухкомпонентную систему:

    • Protein Designer (PD): Этот компонент генерирует варианты белковых последовательностей, исходя из заданного вектора колебаний.

    • Protein Predictor (PP): Он проверяет, насколько полученная последовательность соответствует требуемой динамике, то есть предсказывает нормальные моды для сгенерированного белка.

  • Обучение: Модель обучалась на основе протеиновых языковых диффузионных моделей, а затем тестировалась на точность: например, после сглаживания сигналов коэффициент корреляции между заданной и полученной динамикой достигал 0.72, а относительная ошибка [5] L2 снижалась до 0.37.

  • Проверка новизны: BLAST-анализ показал, что многие сгенерированные белки не похожи на известные, что говорит о том, что ИИ «открывает» новые области в белковом пространстве.

Такой подход позволяет:

  • Разрабатывать белки, обладающие не только нужной структурой, но и требуемой подвижностью;

  • Создавать белки, которые не встречаются в природе, расширяя таким образом возможности для создания новых ферментов и биоматериалов;

  • Совмещать генерацию вариантов (для разнообразия) с их отбором по точности, благодаря системе из двух взаимодополняющих агентов (PD и PP).

Исследователи планируют добавить больше параметров динамики (например, учитывать направления векторов, частоты колебаний) и интегрировать эту систему с другими ИИ-модулями и физическими моделями для создания полноценного решения, способного разрабатывать белки для практических нужд в медицине и биотехнологиях.

Заключение

Современные методы диффузии могут менять подходы как в генерации текста, так и в дизайне белков. Новые модели позволяют создавать более качественный и разнообразный контент, будь то текст или молекулярные последовательности, и открывают большие перспективы для развития ИИ в различных областях. Эти исследования уже сегодня прокладывают путь к будущим прорывам в обработке естественного языка, биоинженерии и смежных сферах.

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [6] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: Dataist

Источник [7]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/12342

URLs in this post:

[1] предложили другой подход: https://arxiv.org/abs/2502.09992

[2] обучения: http://www.braintools.ru/article/5125

[3] подкреплением: http://www.braintools.ru/article/5528

[4] использовали большую языковую диффузионную модель для дизайна белков: https://arxiv.org/abs/2502.10173

[5] ошибка: http://www.braintools.ru/article/4192

[6] подписывайтесь на мой Telegram-канал: https://t.me/+Yo3iF7b3aStjNjIy

[7] Источник: https://habr.com/ru/news/883882/?utm_source=habrahabr&utm_medium=rss&utm_campaign=883882

www.BrainTools.ru

Rambler's Top100