Исследователи из MIT и IBM предложили новый подход к расширению возможностей LLM. large language model.. large language model. llm.. large language model. llm. Блог компании Технократия.. large language model. llm. Блог компании Технократия. ИИ.. large language model. llm. Блог компании Технократия. ИИ. искусственный интеллект.. large language model. llm. Блог компании Технократия. ИИ. искусственный интеллект. исследование.. large language model. llm. Блог компании Технократия. ИИ. искусственный интеллект. исследование. Машинное обучение.. large language model. llm. Блог компании Технократия. ИИ. искусственный интеллект. исследование. Машинное обучение. Эдвард Де Боно. Серьёзное творческое мышление. Применение творческого мышления. Обучение.
Исследователи из MIT и IBM предложили новый подход к расширению возможностей LLM - 1

Исследователи из MIT и лаборатории MIT–IBM Watson AI Lab разработали новую выразительную архитектуру, которая существенно улучшает способность больших языковых моделей отслеживать состояние и выполнять последовательные рассуждения при работе с длинными текстами. В большинстве языков смысл извлекается не только из самих слов, но и из их порядка и синтаксической структуры. Фраза «Кот сидел на коробке» принципиально отличается по смыслу от «Коробка была на коте». В длинных текстах — будь то финансовые документы, программный код или художественная литература — структура и взаимосвязи между элементами со временем изменяются.

Аналогичная ситуация возникает при анализе кода, где требуется отслеживать значения переменных, или при выполнении инструкций с условными переходами. Всё это примеры изменений состояния и последовательного мышления — именно тех задач, в которых современные системы искусственного интеллекта должны демонстрировать высокий уровень компетентности. Однако стандартный механизм внимания в трансформерах, лежащий в основе большинства современных LLM, имеет как теоретические, так и практические ограничения, когда речь идёт о таких сценариях.

Механизм внимания позволяет модели «оглядываться» на предыдущие части текста и определять, какие токены наиболее важны в текущем контексте. При этом сам по себе attention не кодирует порядок слов: все токены обрабатываются параллельно, а информация о позиции добавляется отдельно. Для языков и других структурированных доменов это критически важно. На сегодняшний день наиболее распространённым методом кодирования позиции является rotary position encoding (RoPE). Он учитывает относительное расстояние между токенами, но не зависит от их содержания. В результате слова, находящиеся на одинаковом расстоянии друг от друга, получают одинаковое математическое преобразование, независимо от контекста и семантики.

Работа, выполненная исследователями MIT и MIT–IBM Watson AI Lab, предлагает альтернативу — метод кодирования позиции под названием PaTH Attention. Его ключевая идея заключается в том, чтобы сделать позиционную информацию адаптивной и контекстно-зависимой, в отличие от статического подхода RoPE.

Как отмечает старший автор работы Юн Ким, доцент кафедры электротехники и информатики MIT и участник CSAIL, современные архитектуры глубокого обучения демонстрируют высокую точность и хорошую масштабируемость, однако сталкиваются с трудностями при отслеживании состояния — фундаментального механизма, лежащего в основе многих когнитивных способностей. Центральный вопрос, по его словам, заключается в том, как сохранить вычислительную эффективность и способность к масштабированию, одновременно расширив модели в части работы с изменяющимся состоянием.

Соответствующая статья была представлена на конференции NeurIPS. В числе авторов — аспирант MIT Сонглин Ян, а также исследователи из Стэнфорда, Microsoft и IBM Research.

В отличие от RoPE, где между двумя токенами учитывается лишь фиксированное расстояние, PaTH Attention интерпретирует промежуточные токены как «путь», состоящий из последовательности небольших, зависящих от данных преобразований. Эти преобразования основаны на математической операции, известной как отражение Хаусхолдера. Образно говоря, каждый токен действует как маленькое зеркало, слегка изменяющее представление информации в зависимости от своего содержания. В результате каждый шаг последовательности влияет на то, как модель интерпретирует последующие элементы. 

Совокупный эффект позволяет модели учитывать не просто дистанцию между словами, а то, как смысл трансформируется по мере продвижения по тексту. Такой подход даёт трансформеру нечто вроде «позиционной памяти», позволяя отслеживать изменения сущностей и отношений во времени. Это можно сравнить с прогулкой по маршруту, где на восприятие влияет не только длина пути, но и окружающая среда на каждом участке. При этом команда разработала аппаратно-эффективный алгоритм, который разбивает совокупные преобразования на более мелкие вычисления, совместимые с высокопроизводительной обработкой на GPU.

Эффективность PaTH Attention была проверена на синтетических и реальных задачах, включая логическое рассуждение, работу с длинным контекстом и полноценное обучение языковых моделей среднего размера. В частности, модель тестировали на задачах, где необходимо корректно учитывать последнюю операцию записи среди множества отвлекающих шагов, а также на многошаговом воспроизведении информации — сценариях, в которых стандартные позиционные кодировки часто дают сбой. PaTH Attention показал улучшение перплексии и превзошёл альтернативные методы на ряде reasoning-бенчмарков, в том числе тех, на которых модель не обучалась напрямую. Дополнительно была подтверждена стабильность и эффективность работы с контекстами длиной в десятки тысяч токенов.

По словам Кима, как на диагностических задачах, выявляющих ограничения трансформеров, так и на реальных задачах языкового моделирования, новый подход демонстрирует превосходство над существующими механизмами внимания без потери вычислительной эффективности. Он также выражает интерес к применению контекстно-зависимых позиционных кодировок в других структурированных областях, таких как анализ белков и ДНК.

В дальнейшем исследователи сделали шаг в сторону ещё более когнитивно правдоподобного поведения, объединив PaTH Attention с архитектурой Forgetting Transformer (FoX), которая позволяет модели выборочно «забывать» менее релевантную информацию. Получившаяся система PaTH-FoX добавляет механизм контекстно-зависимого ослабления внимания и показывает сильные результаты в задачах рассуждения, работы с длинным контекстом и языкового моделирования. Таким образом, PaTH Attention расширяет выразительную мощность трансформеров, не жертвуя их масштабируемостью.

Ким рассматривает эту работу как часть более широкого поиска «следующего большого шага» в архитектуре ИИ. История глубокого обучения показывает, что ключевые прорывы часто связаны с появлением универсальных строительных блоков — от свёрточных слоёв и рекуррентных сетей до трансформеров. В будущем, по его мнению, решающую роль по-прежнему будут играть баланс между выразительностью, гибкостью, точностью и аппаратной эффективностью. В этом и заключается основная задача современной архитектурной мысли — создавать новые примитивы, которые одновременно расширяют возможности моделей и остаются масштабируемыми.

Источник: MIT


Чтобы не пропустить анонс новых материалов подпишитесь на «Голос Технократии» — мы регулярно рассказываем о новостях про AI, LLM и RAG, а также делимся полезными мастридами и актуальными событиями.

Автор: Idilara25

Источник

Rambler's Top100