- BrainTools - https://www.braintools.ru -

В этой статье расскажу о новом подходе – больших языковых диффузионных моделях (LLaDA).
Большие языковые диффузионные модели – альтернатива традиционным большим языковым моделям, которые генерируют текст токен за токеном. Метод диффузии сначала “зашумляет” текст, а затем модель обучается восстанавливать его целиком. Такие модели можно также использовать и для создания новых белков с заданными свойствами. Давайте подробнее разберем, как все это работает.
Большинство современных языковых моделей работают по принципу «предскажи следующий токен», то есть генерируют текст поэтапно. Но недавно китайские исследователи предложили другой подход [1] — использовать диффузию в LLM. Вместо пошагового предсказания модель сначала «зашумляет» текст, а затем обучается восстанавливать его целиком.
Процесс обучения [2]: Исходный текст постепенно “маскируется” (заменяется специальными токенами), и модель учится по шагам возвращать исходные слова. Таким образом, она изучает не только прямую последовательность слов, но и взаимосвязи между ними со всех сторон.
Дообучение: После базового обучения модель дообучали на 4,5 млн пар «вопрос–ответ», чтобы она лучше понимала инструкции и могла вести осмысленные диалоги.
Результаты: Модель LLaDA с 8 млрд параметров показывает результаты, сравнимые с лучшими существующими языковыми моделями в “своей весовой категории”. Например, на математической задаче GSM8K точность достигала 70,7%, а задачи, где требуется генерировать текст задом наперед («обратное рассуждение»), модель справлялась лучше, чем GPT‑4.
Диффузионный подход позволяет:
Генерировать текст параллельно, а не по токенам, что может ускорить работу LLM;
Улучшить качество вывода на сложных задачах, например, там, где нужно учитывать контекст с обеих сторон;
Открыть новые возможности для применения ИИ в мультимодальных задачах (например, совмещая текст и изображение).
Исследователи планируют масштабировать модели и добавить методы обучения с подкреплением [3], чтобы еще больше улучшить точность и соответствие ответов человеческим ожиданиям.
Исследователи из MIT использовали большую языковую диффузионную модель для дизайна белков [4].
Белки — это сложные молекулярные машины, чьи функции зависят не только от их структуры, но и от того, как они двигаются. Традиционные методы дизайна белков обычно работают со статическими структурами, игнорируя их динамику. Ученые решили, что можно создать ИИ, который генерирует новые белковые последовательности с нужными динамическими свойствами. Что им удалось сделать?
Собрали данные: Сперва исследователи собрали набор из почти 13 тысяч белков из базы PDB и рассчитали для каждого белка «нормалные моды» — вектор амплитуд;
Разрабоали двухкомпонентную систему:
Protein Designer (PD): Этот компонент генерирует варианты белковых последовательностей, исходя из заданного вектора колебаний.
Protein Predictor (PP): Он проверяет, насколько полученная последовательность соответствует требуемой динамике, то есть предсказывает нормальные моды для сгенерированного белка.
Обучение: Модель обучалась на основе протеиновых языковых диффузионных моделей, а затем тестировалась на точность: например, после сглаживания сигналов коэффициент корреляции между заданной и полученной динамикой достигал 0.72, а относительная ошибка [5] L2 снижалась до 0.37.
Проверка новизны: BLAST-анализ показал, что многие сгенерированные белки не похожи на известные, что говорит о том, что ИИ «открывает» новые области в белковом пространстве.
Такой подход позволяет:
Разрабатывать белки, обладающие не только нужной структурой, но и требуемой подвижностью;
Создавать белки, которые не встречаются в природе, расширяя таким образом возможности для создания новых ферментов и биоматериалов;
Совмещать генерацию вариантов (для разнообразия) с их отбором по точности, благодаря системе из двух взаимодополняющих агентов (PD и PP).
Исследователи планируют добавить больше параметров динамики (например, учитывать направления векторов, частоты колебаний) и интегрировать эту систему с другими ИИ-модулями и физическими моделями для создания полноценного решения, способного разрабатывать белки для практических нужд в медицине и биотехнологиях.
Современные методы диффузии могут менять подходы как в генерации текста, так и в дизайне белков. Новые модели позволяют создавать более качественный и разнообразный контент, будь то текст или молекулярные последовательности, и открывают большие перспективы для развития ИИ в различных областях. Эти исследования уже сегодня прокладывают путь к будущим прорывам в обработке естественного языка, биоинженерии и смежных сферах.
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал [6] — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: Dataist
Источник [7]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12342
URLs in this post:
[1] предложили другой подход: https://arxiv.org/abs/2502.09992
[2] обучения: http://www.braintools.ru/article/5125
[3] подкреплением: http://www.braintools.ru/article/5528
[4] использовали большую языковую диффузионную модель для дизайна белков: https://arxiv.org/abs/2502.10173
[5] ошибка: http://www.braintools.ru/article/4192
[6] подписывайтесь на мой Telegram-канал: https://t.me/+Yo3iF7b3aStjNjIy
[7] Источник: https://habr.com/ru/news/883882/?utm_source=habrahabr&utm_medium=rss&utm_campaign=883882
Нажмите здесь для печати.