ssm.
Два пути из Тирании Квадрата: Сравнительный разбор MoE и SSM как наследников Трансформера
Архитектура Трансформеров, без сомнения, гениальна. Ее механизм внимания позволил моделям увидеть связи и зависимости в данных с невиданной ранее глубиной. Однако у этой конструкции есть врожденный порок, фундаментальный изъян, который из технической детали превратился в главный тормоз на пути к AI, способному на настоящее глубинное понимание. Имя этому пороку — «Тирания Квадрата».Технически это описывается как сложность O(n²): для обработки последовательности длиной n токенов требуется n*n
Часть 4: Mamba — State Space Models vs трансформеры
Обо мнеПривет, меня зовут Василий Техин. За последние 6 лет я прошёл путь от новичка в ML который ни в чем не разбирается, до человека, который может помочь разобраться другим не используя сложной математике и приправляя обьяcнение наглядными примерами. В этой серии статей я разбираю прорывные модели "на пальцах":ResNet-18 — Архитектура, покорившая глубинуVision Transformer (ViT) — Когда трансформеры научились видетьDiffusion Transformer (DiT) — Stable Diffusion 3 как она есть Сегодня

