трансформеры. - страница 2

Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)

Мы привыкли восхищаться тем, как нейронные сети умеют адаптироваться. Они находят паттерны в шуме, обходят локальные минимумы и выжимают максимум из грязных данных. Но у этой сверхспособности есть темная сторона, о которой редко говорят в туториалах.Сверх адаптивность нейросетей это худший кошмар инженера.

продолжить чтение

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Если вы когда-нибудь собирали языковую модель с нуля, вы наверняка знаете про Weight Tying (Связывание весов). Этот трюк был предложен в 2016 году в статье "Using the Output Embedding to Improve Language Models" и популяризован OpenAI в архитектуре GPT-2.Суть предельно проста и математически изящна: мы берем матрицу входных эмбеддингов Win (размером Vocab_Size × Hidden_Dim) и используем её же транспонированную версию как выходной слой классификатора Wout

продолжить чтение

Геометрия Attention: почему QK Norm это не просто костыль для стабильности, а способ заставить сеть понимать смысл

Привет, Хабр! Если вы следите за архитектурами современных LLM (например, LLaMA или Gemma), вы могли заметить одну маленькую, но важную деталь, которая стала стандартом де-факто - QK Norm (Query-Key Normalization). В официальных пейперах её использование объясняют сухим математическим языком: при масштабировании моделей скалярные произведения Q * Kt  начинают неконтролируемо расти, Softmax превращается в единичный вектор (one-hot), градиенты затухают, и обучение разваливается. Нормализация решает эту проблему численной стабильности.

продолжить чтение

Представлена языковая модель с линейной сложностью вычислений и контекстом до 12 млн токенов

Кратко: стартап Subquadratic представил SubQ 1M-Preview — первую языковую модель с линейной сложностью вычислений относительно длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 раза выше FlashAttention и радикальное снижение стоимости. Независимых тестов пока нет (хотя стартап заявляет о сторонней верификации своих бенчмарков), доступ закрыт. Техническое сообщество реагирует сдержанно: пока это амбициозный пресс-релиз, а не готовый инструмент.

продолжить чтение

Когда автоматизация становится умнее: как трансформеры изменили AutoDL в Альфа-Банке

Всем привет! С вами Артемий Лямин (@lyaminartemiy) и Иван Тренёв (@123-39

продолжить чтение

Пять мыслей о возможностях и ограничениях LLM

О фундаментальных ограничениях больших языковых моделей одни говорят, что трансформеры, обученные предсказывать следующий токен (NTP), - тупиковый путь для создания интеллектуальных машин: язык слишком беден, это лишь плоская проекция реального мира, машины ничего не понимают. Другие говорят , что та же задача, повторённая триллионы раз, может вызвать появление сложного поведения примерно как простой механизм эволюции породил всё многообразие жизни.Ниже представлены наблюдения по этим вопросах. | Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал 

продолжить чтение

AIRI представил ELMUR — архитектуру памяти для роботов на базе ИИ

продолжить чтение

ИИ 2026: Технологии, которые выживут в продакшне

Когда технологии упираются в потолок

продолжить чтение

TAPe‑дневник, день 7: первый уход от трансформеров и “почти бесплатная” сегментация

В этом посте продолжаем дневник TAPe‑детекции и рассказываем, что получилось после отказа от трансформеров: насколько сократилось число параметров, как работают локальные ассоциации TAPe‑патчей и почему на лице человека у нас начинает “сам по себе” появляться зачаток сегментации.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML — TAPe + ML: универсальная архитектура компьютерного зренияFAQ по TAPe‑детекции —

продолжить чтение

TAPe‑дневник, день 6: синтетика, эмбеддинги и первый уход от трансформеров

В этой статье продолжаем онлайн‑дневник экспериментов с TAPe‑подходом к компьютерному зрению на COCO. Здесь – про обучение эмбеддингов на полностью синтетических TAPe‑данных, 74% точности классификации на 5k val‑изображениях и первые выводы о том, почему стандартные трансформеры нам не подходят.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML — TAPe + ML: универсальная архитектура компьютерного зренияFAQ по TAPe‑детекции —

продолжить чтение