transformers.

Как деанонимизировать поведение трансформера на временных рядах: визуальная диагностика и фальсифицируемые тесты

TL;DR: ниже я показываю метод интерпретации трансформероподобной модели на временных рядах, который работает как инструмент дебага с интервенционным протоколом, а не как банальная визуализация. Метод строит карту вклада входных сигналов в координатах время × масштаб × признак, и я проверяю ее через два фальсифицируемых теста: (1) подмену ключевых входных каналов на статистически правдоподобные суррогаты и (2) режимный контраст на естественной смене состояния входа. Цель — не пост-фактум проиллюстрировать веса конкретной предобученной нейросети, а

продолжить чтение

Оставлено в

Трёхстрочный Deep Learning: 20 примеров нейросетевой магии

В 2012 году команда из Торонто потрясла мир компьютерного зрения: их нейросеть AlexNet распознавала объекты на фотографиях лучше любого алгоритма, написанного вручную. Код занимал тысячи строк, требовал двух видеокарт и недель обучения. Сегодня вы можете превзойти AlexNet одной строкой кода, а модель загрузится за секунды.

продолжить чтение

Оставлено в

Memory Is All You Need: Активная память для трансформеров — мой новый подход к долгосрочным зависимостям в ИИ

Привет, Habr! Я хочу поделиться своим исследовательским проектом - репозиторием memory-is-all-you-need

продолжить чтение

Оставлено в

Детектор AI-сгенерированных изображений: от идеи до честной оценки качества

Всем привет! Меня зовут Татьяна Кутузова, я работаю в Wildberries & Russ ML-инженером. Вместе с Иваном Горбуновым и Елисеем Мягких мы занимаемся разработкой AI-детектора изображений, который помогает отличать реальные фотографии от сгенерированных нейросетями. В этой статье рассказываем, как мы подошли к созданию AI-детектора: от выбора архитектуры и данных до продуктовых границ и сценариев применения. Отдельное внимание уделяем тому, как в таких задачах корректно оценивать качество модели, какие метрики имеют смысл и почему их интерпретация не менее важна, чем сами числа.

продолжить чтение

Оставлено в

Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

Команда AI for Devs подготовила перевод и разбор статьи о Prompt Caching — технологии, которая делает входные токены LLM в разы дешевле и заметно снижает задержки. Внутри — подробное объяснение, что именно кэшируют OpenAI и Anthropic, как KV-кэш связан с attention в трансформерах и почему это не имеет ничего общего с повторным использованием ответов.На момент, когда я пишу эту статью, закэшированные входные токены стоят в долларах за токен примерно в 10 раз дешевле обычных входных токенов — как в API OpenAI, так и Anthropic.

продолжить чтение

Оставлено в

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Знание механизма внимания и трансформеров - база любых собеседований на все грейды в NLP!Статья не рассчитана на изучение тем с нуля, если вы еще не слышали ничего про attention, то лучше обратиться к полноценным лекциям.Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по NLP, чтобы закрыть пробелы и вспомнить необходимую базу.Содержание:Архитектура трансформераМеханизм вниманияПозиционные эмбеддингиТокенизацияТрансформерные архитектуры (BERT, GPT и тд)Полезные материалы

продолжить чтение

Оставлено в

Как свергнуть короля: формула для линейной альтернативы Трансформеру без побочных эффектов

продолжить чтение

Оставлено в

Бустим Transformer-модель через адаптивную TSCO-архитектуру

Не так давно я писал про наш проект SemantML и про нейродинамическую архитектуру. Хочется поделиться последними результатами развития архитектуры и показателями нашей модели на основе синтеза классических трансформеров и нейродинамики в проведенных бенчрмарках в сравнении с классическим Трансформером.

продолжить чтение

Оставлено в

Momentum Attention: когда внимание получает инерцию

В классическом self-attention каждый токен смотрит на другие токены, чтобы понять, что важно в данный момент.Внимание распределяется мгновенно:Именно этот механизм сделал трансформеры тем, чем они стали.Но вот в чём проблема - внимание не имеет памяти.

продолжить чтение