mamba.

Как я создал альтернативу трансформерам

В этой статье я хочу остановиться на разборе предложенной мной архитектуры декодера и тех вариантов, с которыми я сравниваю её в исследовании, но сделать это проще и интуитивнее, чем в самой работе. На мой взгляд, существующие объяснения архитектур декодеров часто подаются разрозненно. Каждый подход описывают отдельно, без общей опоры. А ведь всё можно свести к одному фундаменту, и тогда становятся гораздо заметнее как сильные стороны каждого решения, так и их ограничения. Для начала приведу все необходимые ссылки.Само исследование: https://arxiv.org/abs/2604.18580Код:

продолжить чтение

Титаны и MIROS: Google учит ИИ помнить как человек — от сюрприза к бесконечной памяти

продолжить чтение

Как свергнуть короля: формула для линейной альтернативы Трансформеру без побочных эффектов

продолжить чтение

Оптимизация языковой модели Mamba для выполнения на CPU

Большие языковые модели с успехом применяются в биоинформатике. Неудивительно, ведь язык биологических последовательностей – всего лишь часть множества знаковых систем, существующих в природе. Но есть нюанс: осмысленные фразы языка биоинформатики, как правило, гораздо длиннее фраз языков межчеловеческого общения. Популярные языковые модели на основе трансформеров требуют квадратичного увеличения объема вычислений с ростом длины входной последовательности.

продолжить чтение

Часть 4: Mamba — State Space Models vs трансформеры

Обо мнеПривет, меня зовут Василий Техин. За последние 6 лет я прошёл путь от новичка в ML который ни в чем не разбирается, до человека, который может помочь разобраться другим не используя сложной математике и приправляя обьяcнение наглядными примерами. В этой серии статей я разбираю прорывные модели "на пальцах":ResNet-18 — Архитектура, покорившая глубинуVision Transformer (ViT) — Когда трансформеры научились видетьDiffusion Transformer (DiT) — Stable Diffusion 3 как она есть Сегодня

продолжить чтение