- BrainTools - https://www.braintools.ru -

Новая модель искусственного интеллекта «Тitans» от Google обеспечивает долговременную память языковых моделей

Исследователи Google разработали новый тип модели Transformer, которая дает языковым моделям нечто похожее на долговременную память [1]. Система может обрабатывать гораздо более длинные последовательности информации, чем текущие модели, что приводит к лучшей производительности при выполнении различных задач.

Новая архитектура «Titans» черпает вдохновение из того, как работает человеческая память [2]. Объединяя искусственную краткосрочную и долгосрочную память через блоки внимания [3] и MLP памяти, система может работать с длинными последовательностями информации.

Новая модель искусственного интеллекта «Тitans» от Google обеспечивает долговременную память языковых моделей - 1

Одной из умных функций системы является то, как она решает, что запоминать. Titans использует «удивленность» в качестве своей основной метрики — чем неожиданнее информация, тем больше вероятность, что она сохранится в долговременной памяти [4]. Система также знает, когда следует забывать [5] вещи, что помогает ей эффективно использовать пространство памяти.

Команда создала три разные версии Titans, каждая из которых по-разному обрабатывает долговременную память [6]: память как контекст (MAC), память как контроль доступа (ворота) (MAG), память как слой (MAL). Хотя каждая версия имеет свои сильные стороны, вариант MAC особенно хорошо работает с очень длинными последовательностями.

Новая модель искусственного интеллекта «Тitans» от Google обеспечивает долговременную память языковых моделей - 2

В ходе обширного тестирования Titans превзошли традиционные модели, такие как классический Transformer, и более новые гибридные модели, такие как Mamba2, особенно при работе с очень длинными текстами. Команда утверждает, что он может эффективнее обрабатывать контекстные окна более 2 миллионов токенов, устанавливая новые рекорды как для моделирования языка, так и для прогнозирования временных рядов с длинными контекстами.

Система также преуспела в тесте «Иголка в стоге сена», где ей нужно найти определенную информацию в очень длинных текстах. Titans достигла точности более 95% даже с текстами из 16 000 токенов. Хотя некоторые модели от OpenAI, Anthropic и Google работают лучше, они намного больше — самая большая версия Titans имеет всего 760 миллионов параметров.

Модели Titans также значительно превосходят более крупные языковые модели в задачах, требующих понимания более обширных контекстов

Модели Titans также значительно превосходят более крупные языковые модели в задачах, требующих понимания более обширных контекстов

Titans действительно показала свою силу в тесте BABILong [7] , сложном тесте на долгосрочное понимание, где модели должны связывать факты, разбросанные по очень длинным документам. Система превзошла более крупные модели, такие как GPT-4 [8] , RecurrentGemma-9B и Llama3.1-70B. Она даже превзошла Llama3 с Retrieval Augmented Generation (RAG), хотя некоторые специализированные модели поиска все еще работают лучше.

Команда рассчитывает сделать код общедоступным в ближайшем будущем. Хотя Titans и подобные архитектуры могут привести к языковым моделям, которые обрабатывают более длинные контексты и делают лучшие выводы, преимущества могут выйти за рамки простой обработки текста. Ранние тесты команды с моделированием ДНК показывают, что технология может улучшить и другие приложения, включая видео-модели, при условии, что многообещающие результаты тестов подтвердятся в реальном использовании.

Источник [9]

Автор: dilnaz_04

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11324

URLs in this post:

[1] долговременную память: http://www.braintools.ru/article/9500

[2] память: http://www.braintools.ru/article/4140

[3] внимания: http://www.braintools.ru/article/7595

[4] долговременной памяти: http://www.braintools.ru/article/9289

[5] забывать: http://www.braintools.ru/article/333

[6] долговременную память: http://www.braintools.ru/article/4150

[7] тесте BABILong: https://huggingface.co/spaces/RMT-team/babilong

[8] GPT-4: https://the-decoder.com/open-ai-gpt-4-announcement/

[9] Источник: https://the-decoder.com/googles-new-titans-ai-model-gives-language-models-long-term-memory/

[10] Источник: https://habr.com/ru/companies/bothub/news/874596/?utm_source=habrahabr&utm_medium=rss&utm_campaign=874596

www.BrainTools.ru

Rambler's Top100