- BrainTools - https://www.braintools.ru -

Исследователи из Tsinghua University представили Glyph — экспериментальную модель, которая масштабирует контекст не за счёт роста параметров, а через визуально-текстовую компрессию. Идея проста и при этом гениальна. Длинный текст преобразуется в изображение, которое потом обрабатывается мультимодальной моделью.

Glyph использует LLM-управляемый генетический алгоритм, подбирающий оптимальные параметры отображения (шрифт, плотность строк, компоновку и цветовую схему). Цель в том, чтобы сохранить максимум смысла при минимальном объёме данных. Такой подход снижает вычислительные затраты в разы, но почти не влияет на качество вывода.

На тестах с длинным контекстом Glyph показывает результаты, сопоставимые с Qwen3-8B, а при экстремальном сжатии позволяет vision-language модели с контекстом 128K эффективно решать задачи, эквивалентные миллиону и более токенов в обычных языковых моделях.

По сути, Glyph превращает обработку длинных контекстов из чисто текстовой задачи в мультимодальную. Это может стать новым направлением в развитии больших моделей, где память [1] и визуальная структура текста объединяются в единую когнитивную систему.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News [2].
Автор: cognitronn
Источник [3]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21210
URLs in this post:
[1] память: http://www.braintools.ru/article/4140
[2] BotHub AI News: https://t.me/bothub
[3] Источник: https://habr.com/ru/companies/bothub/news/960906/?utm_source=habrahabr&utm_medium=rss&utm_campaign=960906
Нажмите здесь для печати.