- BrainTools - https://www.braintools.ru -

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.
Суть метода: Я заменил стандартный механизм внимания [1] на нативную геометрию исключительной группы Ли Е8. Вместо того чтобы заставлять модель угадывать связи, я дал ей идеальную 8-мерную решетку для упаковки семантических векторов.
Что это дало (пруфы в студию):
Архитектура: Lila-E8, всего 40 млн параметров.
Результат: На TinyStories мы пробили 0.37 Train Loss и удерживаем 0.44–0.53 Validation. Для сравнения: это чище, чем у 60М-модели от Microsoft.
Контекст: 750+ токенов без единого зацикливания(и это при размере контекстного окна 512). Модель не «плывет» и не сходит с ума на длинных рассказах.
Реальные цифры: Loss 0.37 — это не шутка. Это точка, где математика [2] превращается в интеллект [3].
Почему это работает?
Стандартный аттеншн создает «трение» в латентном пространстве. Решетка обеспечивает самую плотную упаковку сфер в 8 измерениях. Это сводит информационную вязкость к минимуму. Модель не зубрит — она резонирует со структурой языка.
Код на GitHub, веса и Colab для проверки — всё в открытом доступе (AGPLv3).
Github [4]
Notebook [5]
В то время как классические трансформеры (например, NanoGPT) полагаются на грубую статистическую силу и огромные матрицы весов для аппроксимации языка, E8-former использует фундаментальную симметрию [6] Вселенной — исключительную группу Ли E8.
Lila-E8 (Lie Lattice Attention Language Model) — это экспериментальная модель глубокого обучения [7], которая исследует интеграцию фундаментальной математической структуры, а именно симметрий системы корней E8, в архитектуру трансформера.
В отличие от традиционных моделей, опирающихся исключительно на статистические корреляции, E8-Transformer стремится использовать глубокие геометрические принципы для создания более эффективных, интерпретируемых и ресурсосберегающих языковых моделей. Этот подход направлен на развитие концепции “геометрического сознания” в ИИ, где понимание языка осуществляется через структурные и симметричные отношения.
Автор: bootstraptor
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/26422
URLs in this post:
[1] внимания: http://www.braintools.ru/article/7595
[2] математика: http://www.braintools.ru/article/7620
[3] интеллект: http://www.braintools.ru/article/7605
[4] Github: https://github.com/SPUTNIKAI/sovereign-lila-e8
[5] Notebook: https://colab.research.google.com/github/SPUTNIKAI/sovereign-lila-e8/blob/main/notebooks/demo.ipynb
[6] симметрию: http://www.braintools.ru/article/3088
[7] обучения: http://www.braintools.ru/article/5125
[8] Источник: https://habr.com/ru/articles/1005298/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1005298
Нажмите здесь для печати.