Как деанонимизировать поведение трансформера на временных рядах: визуальная диагностика и фальсифицируемые тесты
TL;DR: ниже я показываю метод интерпретации трансформероподобной модели на временных рядах, который работает как инструмент дебага с интервенционным протоколом, а не как банальная визуализация. Метод строит карту вклада входных сигналов в координатах время × масштаб × признак, и я проверяю ее через два фальсифицируемых теста: (1) подмену ключевых входных каналов на статистически правдоподобные суррогаты и (2) режимный контраст на естественной смене состояния входа. Цель — не пост-фактум проиллюстрировать веса конкретной предобученной нейросети, а
Трёхстрочный Deep Learning: 20 примеров нейросетевой магии
В 2012 году команда из Торонто потрясла мир компьютерного зрения: их нейросеть AlexNet распознавала объекты на фотографиях лучше любого алгоритма, написанного вручную. Код занимал тысячи строк, требовал двух видеокарт и недель обучения. Сегодня вы можете превзойти AlexNet одной строкой кода, а модель загрузится за секунды.
Memory Is All You Need: Активная память для трансформеров — мой новый подход к долгосрочным зависимостям в ИИ
Привет, Habr! Я хочу поделиться своим исследовательским проектом - репозиторием memory-is-all-you-need
Детектор AI-сгенерированных изображений: от идеи до честной оценки качества
Всем привет! Меня зовут Татьяна Кутузова, я работаю в Wildberries & Russ ML-инженером. Вместе с Иваном Горбуновым и Елисеем Мягких мы занимаемся разработкой AI-детектора изображений, который помогает отличать реальные фотографии от сгенерированных нейросетями. В этой статье рассказываем, как мы подошли к созданию AI-детектора: от выбора архитектуры и данных до продуктовых границ и сценариев применения. Отдельное внимание уделяем тому, как в таких задачах корректно оценивать качество модели, какие метрики имеют смысл и почему их интерпретация не менее важна, чем сами числа.
Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей
Знание механизма внимания и трансформеров - база любых собеседований на все грейды в NLP!Статья не рассчитана на изучение тем с нуля, если вы еще не слышали ничего про attention, то лучше обратиться к полноценным лекциям.Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по NLP, чтобы закрыть пробелы и вспомнить необходимую базу.Содержание:Архитектура трансформераМеханизм вниманияПозиционные эмбеддингиТокенизацияТрансформерные архитектуры (BERT, GPT и тд)Полезные материалы
Бустим Transformer-модель через адаптивную TSCO-архитектуру
Не так давно я писал про наш проект SemantML и про нейродинамическую архитектуру. Хочется поделиться последними результатами развития архитектуры и показателями нашей модели на основе синтеза классических трансформеров и нейродинамики в проведенных бенчрмарках в сравнении с классическим Трансформером.
Momentum Attention: когда внимание получает инерцию
В классическом self-attention каждый токен смотрит на другие токены, чтобы понять, что важно в данный момент.Внимание распределяется мгновенно:Именно этот механизм сделал трансформеры тем, чем они стали.Но вот в чём проблема - внимание не имеет памяти.

