Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры. E8.. E8. edgeai.. E8. edgeai. llm.. E8. edgeai. llm. Natural Language Processing.. E8. edgeai. llm. Natural Language Processing. slm.. E8. edgeai. llm. Natural Language Processing. slm. transformers.. E8. edgeai. llm. Natural Language Processing. slm. transformers. искусственный интеллект.. E8. edgeai. llm. Natural Language Processing. slm. transformers. искусственный интеллект. Машинное обучение.
Train Loss

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.

Суть метода: Я заменил стандартный механизм внимания на нативную геометрию исключительной группы Ли Е8. Вместо того чтобы заставлять модель угадывать связи, я дал ей идеальную 8-мерную решетку для упаковки семантических векторов.

Что это дало (пруфы в студию):

  • Архитектура: Lila-E8, всего 40 млн параметров.

  • Результат: На TinyStories мы пробили 0.37 Train Loss и удерживаем 0.44–0.53 Validation. Для сравнения: это чище, чем у 60М-модели от Microsoft.

  • Контекст: 750+ токенов без единого зацикливания(и это при размере контекстного окна 512). Модель не «плывет» и не сходит с ума на длинных рассказах.

Реальные цифры: Loss 0.37 — это не шутка. Это точка, где математика превращается в интеллект.

Почему это работает?

Стандартный аттеншн создает «трение» в латентном пространстве. Решетка обеспечивает самую плотную упаковку сфер в 8 измерениях. Это сводит информационную вязкость к минимуму. Модель не зубрит — она резонирует со структурой языка.

Код на GitHub, веса и Colab для проверки — всё в открытом доступе (AGPLv3).

Github

Notebook

В то время как классические трансформеры (например, NanoGPT) полагаются на грубую статистическую силу и огромные матрицы весов для аппроксимации языка, E8-former использует фундаментальную симметрию Вселенной — исключительную группу Ли E8.

Lila-E8 (Lie Lattice Attention Language Model) — это экспериментальная модель глубокого обучения, которая исследует интеграцию фундаментальной математической структуры, а именно симметрий системы корней E8, в архитектуру трансформера.

В отличие от традиционных моделей, опирающихся исключительно на статистические корреляции, E8-Transformer стремится использовать глубокие геометрические принципы для создания более эффективных, интерпретируемых и ресурсосберегающих языковых моделей. Этот подход направлен на развитие концепции “геометрического сознания” в ИИ, где понимание языка осуществляется через структурные и симметричные отношения.

Автор: bootstraptor

Источник

Rambler's Top100