visual transformer.

Когда несколько пикселей решают всё: One Pixel атака и способы защиты от неё

Удивительно, но факт: несколько изменений в изображении может полностью изменить вывод нейросети, что ломает заложенную разработчиком логику. В данной статье мы не просто подсветим факт существования One Pixel атаки, но и комплексно разберём архитектурные факторы, которые влияют на устойчивость CV-систем к данному семейству атак.

продолжить чтение

Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности

Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально. 

продолжить чтение

Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Обо мнеПривет, меня зовут Василий Техин, и последние 6 лет я живу в мире машинного обучения — от первых шагов с линейной регрессией до экспериментов с современными VLm. Когда я только начинал, мне не хватало материалов, где сложные концепции объяснялись бы без формул на трех страницах и обязательного PhD по математике. Я верил (и верю до сих пор), что любую идею можно разложить на понятные кирпичики — так, чтобы после прочтения у вас в голове складывалась цельная картина

продолжить чтение

AutoEncoders and hidden states Analysis

Привет, друзья!Я продолжаю цикл туториалов, посвященных области explainable AI. Так, уже были разобраны метод Logit Lens на примере ViT, зондирование gpt2, CAM на примере Yolo NAS — всё можно найти по статьям в профиле. В этом же туториале мы разберем идею применения автокодировщиков для анализа и извлечения признаков из скрытых состояний модели.В туториале, вы:Изучите или повторите, как работает извлечение признаков в Visual Transformers;Построите и примените автокодировщик для сжатия скрытых представлений, выученных моделью ViT в задаче классификации котиков и собачек;Сравните Vit и PCA в данной задаче.

продолжить чтение

Rambler's Top100