Как я создал альтернативу трансформерам
В этой статье я хочу остановиться на разборе предложенной мной архитектуры декодера и тех вариантов, с которыми я сравниваю её в исследовании, но сделать это проще и интуитивнее, чем в самой работе. На мой взгляд, существующие объяснения архитектур декодеров часто подаются разрозненно. Каждый подход описывают отдельно, без общей опоры. А ведь всё можно свести к одному фундаменту, и тогда становятся гораздо заметнее как сильные стороны каждого решения, так и их ограничения. Для начала приведу все необходимые ссылки.Само исследование: https://arxiv.org/abs/2604.18580Код:
Оптимизация языковой модели Mamba для выполнения на CPU
Большие языковые модели с успехом применяются в биоинформатике. Неудивительно, ведь язык биологических последовательностей – всего лишь часть множества знаковых систем, существующих в природе. Но есть нюанс: осмысленные фразы языка биоинформатики, как правило, гораздо длиннее фраз языков межчеловеческого общения. Популярные языковые модели на основе трансформеров требуют квадратичного увеличения объема вычислений с ростом длины входной последовательности.
Часть 4: Mamba — State Space Models vs трансформеры
Обо мнеПривет, меня зовут Василий Техин. За последние 6 лет я прошёл путь от новичка в ML который ни в чем не разбирается, до человека, который может помочь разобраться другим не используя сложной математике и приправляя обьяcнение наглядными примерами. В этой серии статей я разбираю прорывные модели "на пальцах":ResNet-18 — Архитектура, покорившая глубинуVision Transformer (ViT) — Когда трансформеры научились видетьDiffusion Transformer (DiT) — Stable Diffusion 3 как она есть Сегодня

