transformers.

Делаем фреймворк Meta-Spider на основе мета-внимания

Spider-GwenЭто прямое продолжение статьи "meta-attention is all you need". Рекомендую ее прочитать перед тем как продолжить, но это необязательно, экскурс в архитектуру мы проведем.

продолжить чтение

Базовые нейросетевые модели для кредитного скоринга физических лиц

Всем привет! Мы команда прикладных исследований и разработки моделей глубокого обучения Альфа-банка. В этой статье мы хотели бы рассказать о наших самых актуальных разработках в области нейросетевых подходов к решению задачи кредитного скоринга физических лиц. Ранее мы уже писали на эту тему:Нейросетевой подход к моделированию карточных транзакцийНейросетевой подход к моделированию транзакций расчетного счета

продолжить чтение

Девять лет, как битломаны запустили ИИ-революцию

12 июня 2017 года группой битломанов из Google была опубликована статья под названием "Attention Is All You Need", в которой миру впервые были представлены трансформеры — новый тип нейронных сетей, которые обрабатывали всё, везде и сразу.Эту дату можно считать началом ИИ-революции, которую мы сейчас наблюдаем. Нам кажется, что все произошло практически мгновенно — однако девять лет уже пролетело!Вся фишка была в механизме внимания.

продолжить чтение

Meta-Attention Is All You Need

IntroductionIn this article I want to talk about an interesting finding from my experiments with language models, which I decided to call "meta-transformers".Either I found something genuinely interesting, or I mistook wishful thinking for reality. Only a technically competent outside observer can give an objective assessment, and that is why this text was published. Specialists in transformer architecture would be especially welcome here.

продолжить чтение

meta‑attention is all you need

ВведениеВ этой статье я расскажу о интересной находке во время моих экспериментов с языковыми моделями, которую я решил назвать «мета‑трансформерами».Или я нашел реально что‑то интересное, или выдал желаемое из действительное, а обьективную оценку может дать только (технически подкованный) внешний наблюдатель, поэтому этот текст и был опубликован. Особенно тут кстати будут спецы по архитектуре трансформеров.Веса моделей, исходники проекта + вся документация будут приложены в конце статьи (в главе исходники), на Hugging‑Face и Codeberg

продолжить чтение

Клиент — это тоже вектор? Как мы хотели улучшить ML‑модель, а построили similarity engine

продолжить чтение

Метрика EICS — ищем у трансформера причинное место

Неопределённость как потеря причинной согласованности внутри цепи

продолжить чтение

Франкенштейн на 30 ГБ RAM: Как мы пересадили мозг Gemma в скелет DeepSeek и сломали Transformers

У нас было две бесплатные видеокарты T4 в Kaggle, 30 ГБ оперативной памяти и безумная идея: что будет, если взять веса классической модели (Gemma-4-31B) и хирургическим путем, без всякого дообучения, вшить их в MoE-архитектуру (DeepSeek-V4)? В академической среде вам скажут, что это невозможно: разные размерности, несовместимые слои нормализации, разные принципы роутинга токенов. Но в парадигме Ghetto MLOps нет слова «невозможно». Есть только вопрос: сколько костылей потребуется, чтобы это скомпилировалось?

продолжить чтение

Как я создал альтернативу трансформерам

В этой статье я хочу остановиться на разборе предложенной мной архитектуры декодера и тех вариантов, с которыми я сравниваю её в исследовании, но сделать это проще и интуитивнее, чем в самой работе. На мой взгляд, существующие объяснения архитектур декодеров часто подаются разрозненно. Каждый подход описывают отдельно, без общей опоры. А ведь всё можно свести к одному фундаменту, и тогда становятся гораздо заметнее как сильные стороны каждого решения, так и их ограничения. Для начала приведу все необходимые ссылки.Само исследование: https://arxiv.org/abs/2604.18580Код:

продолжить чтение

AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

продолжить чтение