transformers. - страница 2

Induction Heads на TinyStories: почему простой датасет мешает In-context Learning

Код: https://github.com/fanat503/Induction-Heads-TinystoriesВведениеИсследования Induction Heads и SAE очень важны, чтобы разобраться в современных моделях и понять, что же в них происходит. Цель эксперимента — проверить формирование Induction Heads на датасете TinyStories. Почему был выбран именно такой датасет? Потому что он очень простой и понятный, что позволяет изолировать влияние сложности данных на формирование механизмов.Архитектура и методология

продолжить чтение

Как засунуть 62ГБ в 15ГБ и не сойти с ума: Партизанский MLOps на примере Gemma 4 31B

TL;DR: В этой статье мы возьмем новейшую Gemma 4 31B, которая в оригинале весит 62 ГБ, и заставим её работать и выгружаться на бесплатном Kaggle с лимитом диска в 57 ГБ. Спойлер: нам придется удалять исходники прямо во время работы Python-скрипта.Введение: Кремниевый голод и санкцииКогда у тебя нет кластера A100, а есть только бесплатные T4 от Google, каждый байт становится полем боя. Мы живем в эпоху, когда модели растут быстрее, чем наши возможности их качать. Но математику не заблокируешь. По заветам нашего «Ghetto AI Manifesto», мы будем использовать «палки, желуди и сырой код», чтобы сделать топовый ИИ доступным каждому.

продолжить чтение

Как я поймал Трансформер на читерстве: гроккинг, математика и Mechanistic Interpretability

Феномен Grokking и Mechanistic Interpretability — главные тренды в исследованиях лабораторий уровня OpenAI и Anthropic. Я решил потрогать эти концепции своими руками на уровне тензоров. Цель казалась тривиальной: заставить кастомный микро-Трансформер (всего 1М параметров) выучить базовую арифметику с нуля. Однако вместо математического гения я получил ленивого мошенника. Эта статья — инженерный детектив о том, как нейросети пытаются нас обмануть (Specification Gaming), и как вскрытие Attention-матриц помогает поймать их за руку.Глава 1. Полигон и экстремальный Weight Decay

продолжить чтение

Geometry > Scale: Как 40М параметров на решетке E8 обходят классические трансформеры

Ребята, кажется, мы уперлись в стену. Пока гиганты наращивают параметры и жгут тераватты, пытаясь выжать каплю разума из статистики, я решил пересмотреть сам фундамент. Проблема не в данных, проблема в «вязкости» стандартного Attention.Суть метода: Я заменил стандартный механизм внимания на нативную 

продолжить чтение

В репозитории Transformers появился PR с Qwen 3.5

Компания Alibaba Cloud, подразделение технологического гиганта Alibaba Group, инициировала процесс интеграции своей новой базовой модели Qwen 3.5 в популярную библиотеку Transformers. Подача заявки на включение программного кода свидетельствует о скором выходе следующего поколения нейросетей от команды Tongyi Qianwen. Новая итерация алгоритмов призвана укрепить позиции компании на рынке решений с открытым исходным кодом, предлагая продвинутые мультимодальные возможности.

продолжить чтение

Как деанонимизировать поведение трансформера на временных рядах: визуальная диагностика и фальсифицируемые тесты

TL;DR: ниже я показываю метод интерпретации трансформероподобной модели на временных рядах, который работает как инструмент дебага с интервенционным протоколом, а не как банальная визуализация. Метод строит карту вклада входных сигналов в координатах время × масштаб × признак, и я проверяю ее через два фальсифицируемых теста: (1) подмену ключевых входных каналов на статистически правдоподобные суррогаты и (2) режимный контраст на естественной смене состояния входа. Цель — не пост-фактум проиллюстрировать веса конкретной предобученной нейросети, а

продолжить чтение

Трёхстрочный Deep Learning: 20 примеров нейросетевой магии

В 2012 году команда из Торонто потрясла мир компьютерного зрения: их нейросеть AlexNet распознавала объекты на фотографиях лучше любого алгоритма, написанного вручную. Код занимал тысячи строк, требовал двух видеокарт и недель обучения. Сегодня вы можете превзойти AlexNet одной строкой кода, а модель загрузится за секунды.

продолжить чтение

Memory Is All You Need: Активная память для трансформеров — мой новый подход к долгосрочным зависимостям в ИИ

Привет, Habr! Я хочу поделиться своим исследовательским проектом - репозиторием memory-is-all-you-need

продолжить чтение

Детектор AI-сгенерированных изображений: от идеи до честной оценки качества

Всем привет! Меня зовут Татьяна Кутузова, я работаю в Wildberries & Russ ML-инженером. Вместе с Иваном Горбуновым и Елисеем Мягких мы занимаемся разработкой AI-детектора изображений, который помогает отличать реальные фотографии от сгенерированных нейросетями. В этой статье рассказываем, как мы подошли к созданию AI-детектора: от выбора архитектуры и данных до продуктовых границ и сценариев применения. Отдельное внимание уделяем тому, как в таких задачах корректно оценивать качество модели, какие метрики имеют смысл и почему их интерпретация не менее важна, чем сами числа.

продолжить чтение

Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

Команда AI for Devs подготовила перевод и разбор статьи о Prompt Caching — технологии, которая делает входные токены LLM в разы дешевле и заметно снижает задержки. Внутри — подробное объяснение, что именно кэшируют OpenAI и Anthropic, как KV-кэш связан с attention в трансформерах и почему это не имеет ничего общего с повторным использованием ответов.На момент, когда я пишу эту статью, закэшированные входные токены стоят в долларах за токен примерно в 10 раз дешевле обычных входных токенов — как в API OpenAI, так и Anthropic.

продолжить чтение