E8.

E8.

Geometry > Scale 2.0.: Манифест LILA: Как замерзшие пальцы и 10 строк кода обнуляют 7 триллионов Сэма Альтмана

Пока Сэм Альтман и Qualcomm греются в лучах своих триллионов и играют в гольф запуская конкурсы по эффективным SML (задним числом), через неделю после моего поста на reddit и Хабре про Lila-E8 ( с мемом про Сэма 🤣 похоже мем дошел до него ) Sovereign-Lila-Leech родилась из замерзших пальцев в маршрутке и опыта физики частиц.

продолжить чтение

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.Суть метода: Я заменил стандартный механизм внимания на нативную 

продолжить чтение