State Space Models.

Два пути из Тирании Квадрата: Сравнительный разбор MoE и SSM как наследников Трансформера

Архитектура Трансформеров, без сомнения, гениальна. Ее механизм внимания позволил моделям увидеть связи и зависимости в данных с невиданной ранее глубиной. Однако у этой конструкции есть врожденный порок, фундаментальный изъян, который из технической детали превратился в главный тормоз на пути к AI, способному на настоящее глубинное понимание. Имя этому пороку — «Тирания Квадрата».Технически это описывается как сложность O(n²): для обработки последовательности длиной n токенов требуется n*n

продолжить чтение

Rambler's Top100