WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции. computer vision.. computer vision. deep learning.. computer vision. deep learning. Vision Encoders.. computer vision. deep learning. Vision Encoders. vlm.. computer vision. deep learning. Vision Encoders. vlm. WACV 2026.. computer vision. deep learning. Vision Encoders. vlm. WACV 2026. Блог компании AIRI.. computer vision. deep learning. Vision Encoders. vlm. WACV 2026. Блог компании AIRI. Интерпретируемость нейросетей.. computer vision. deep learning. Vision Encoders. vlm. WACV 2026. Блог компании AIRI. Интерпретируемость нейросетей. искусственный интеллект.. computer vision. deep learning. Vision Encoders. vlm. WACV 2026. Блог компании AIRI. Интерпретируемость нейросетей. искусственный интеллект. Конференции.. computer vision. deep learning. Vision Encoders. vlm. WACV 2026. Блог компании AIRI. Интерпретируемость нейросетей. искусственный интеллект. Конференции. Машинное обучение.

Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто!

В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции - 1

WACV — что это вообще за конференция?

IEEE/CVF Winter Conference on Applications of Computer Vision — это «младший брат» CVPR. Принято считать её более прикладной: меньше теории ради теории, больше систем, датасетов, промышленных применений. Акцепт около 25–30% — по меркам топовых CV конференций вполне лояльно.

При этом конференция камерная — 200–300 человек, не тысячи, как на NeurIPS или ICCV. И это огромный плюс: реально можно подойти к автору работы, которая тебя интересует, и поговорить с ним без очереди. Уровень и организации, и принятых работ при этом высокий. Поэтому «маленькая конференция» в отношении WACV звучит даже как будто немного оскорбительно, я бы предпочёл вариант «конференция правильного размера».

Тусон организаторы выбирают уже не первый год подряд. Место проведения — JW Marriott Starr Pass Resort, гостиница прямо посреди пустыни. Все сессии, постеры и кофе‑брейки в одном здании. Красиво. Но есть нюанс: отель стоит на отшибе, ближайшая остановка общественного транспорта в пяти километрах. Каждый день — такси или Uber, как и у большинства участников. Зато вышел из зала заседаний — а перед тобой сагуаро в метре от дорожки.

JW Marriott Starr Pass – venue конференции на фоне пустынных холмов

JW Marriott Starr Pass Resort — место проведения конференции посреди пустыни Сонора
Открытая терраса Marriott

Открытая терраса Marriott — горы, кактусы, люди за столами
Расписание постерных сессий

Расписание постерных сессий

Конференцию, как это обычно бывает, открывали воркшопы и туториалы. В основном треке были как постеры, так и оралы — три дня, шесть сессий. 

Что было интересного на конференции

Если говорить о трендах, которые в целом были представлены на WAVC 2026, то я бы выделил несколько ключевых вещей. Но в общем можно сказать, что индустрия Computer Vision окончательно перешла к генеративно‑центричному подходу. Основной фокус сместился с количества данных на эффективность выборки через диффузионный синтез и на динамическую плотность вычислений через адаптивное управление токенами в трансформерах.

Мультимодальность как новый стандарт

Если три года назад «мультимодальная модель» звучало как что‑то экзотическое, сейчас это просто норма. Огромная доля работ на WACV так или иначе задействует совместное обучение на тексте и изображениях. Вопрос уже не «зачем», а «как именно» — какие архитектурные решения, как выровнять пространства, как бороться с модальным доминированием.

Синтетические данные и аугментация данных

Диффузионные модели окончательно вошли в состав инструментов компьютерного зрения как генераторы обучающих данных. Несколько работ показывали результаты, где synthetic‑only pipeline обгоняет реальные данные на специфических доменах (медицина, спутниковые снимки, промышленный контроль качества). Это меняет логику построения датасетов фундаментально.

На WACV 2026 одной из центральных тем стал “Cold Start” — обучение моделей в условиях полного отсутствия реальных размеченных данных. Вот несколько примеров:

  • SynSacc: A Blender-to-V2E Pipeline for Synthetic Neuromorphic Eye-Movement Data and Sim-to-Real Spiking Model Training

    Суть: Авторы доказывают, что чисто синтетический пайплайн (Blender → Event‑симулятор) позволяет обучать SNN‑модели для отслеживания саккад глаза, которые показывают стабильную точность на реальных данных.

  • TalkingPose: Efficient Face and Gesture Animation with Feedback-guided Diffusion Model

    Суть: Работа о генерации согласованных движений и мимики. Использование диффузионных моделей с обратной связью позволяет создавать обучающие выборки для анимации, которые по качеству и разнообразию превосходят доступные видео‑датасеты.

  • PHYSPLAT: Photorealistic Hybrid Simulation of Real and Synthetic Elements 

    Суть: Фреймворк на базе 3D Gaussian Splatting для смешивания реальных сцен с синтетическими объектами. Это решает проблему «нереалистичности» синтетики в задачах автономного вождения.

Эффективность — не только quantization

Тема сжатия и ускорения моделей никуда не ушла, но стала интереснее. Помимо классической квантизации активно обсуждались: structured pruning с сохранением семантики, knowledge distillation с мультиагентными учителями, адаптивное вычисление (early exit, token merging в ViT). Впечатление, что поле дозрело до более нюансированных подходов.

Тренды WACV 2026 показывают уход от простой квантизации к методам, которые динамически меняют сложность вычислений в зависимости от входного изображения. Вот несколько примечательных работ:

  • EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation

    Суть: Предложен метод прунинга визуальных токенов на основе k‑center с учетом пространственной информации. Достигнуто ускорение в 5 раз для видео‑задач при сохранении точности с использованием всего 20% токенов.

  • Token Fusion: Bridging the Gap between Token Pruning and Token Merging (Published late 2025/2026 context)

    Суть: Гибридный подход (STEP: SuperToken and Early‑Pruning), который объединяет динамическое слияние патчей и прунинг. Это позволяет обходить ошибки стандартного прунинга, когда важные детали фона могли быть случайно удалены.

  • Accelerating Vision Transformers with Adaptive Patch Sizes (APT) (Late 2025, обсуждалось в контексте WACV)

    Суть: Вместо фиксированной сетки патчей модель использует крупные патчи для однородных областей и мелкие для сложных деталей. Увеличение пропускной способности на 40–50% для тяжелых моделей (ViT‑L/H).

Video understanding как незакрытая проблема

Много работ про видео — и это честный сигнал, что проблема всё ещё открыта. Трансформеры с временным вниманием, state space модели для видеоконтекста, long‑form video QA. Данных много, бенчмарки растут, но «понимания» в полном смысле пока нет.

Доклад Mehmet Onurcan Kaya о Video Instance Segmentation

Доклад Mehmet Onurcan Kaya о Video Instance Segmentation

Постеры традиционно составляют основную массу докладов. Авторы некоторых из них пытались выделиться форматом или размером. 

Автор у постера CLIP’s Visual Embedding Projector

Автор представляет постер “CLIP’s Visual Embedding Projector is a Few-shot Cornucopia”. Места почти хватило!

Наши работы: MaxInfo и Feature Inversion

На WACV мы привезли две работы из FusionBrain Lab. Обе — постеры, и обе я представлял лично, поскольку сами авторы не смогли приехать. 

MaxInfo: умный выбор ключевых кадров для видео

“MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding” Pengyi Li, Irina Abdullaeva, Alexander Gambashidze, Andrey Kuznetsov, Ivan Oseledets

Идея элегантная в своей простоте. Video Large Language Models при работе с длинными видео упираются в ограничения контекстного окна. Обычно кадры выбирают равномерно — каждый N‑й кадр. Но это игнорирует содержание: на статичных сценах кадры дублируются, а ключевые моменты могут быть пропущены.

MaxInfo решает это так: 

  1. Равномерно семплируем N начальных кадров;

  2. Получаем CLS‑эмбеддинги через ViT‑энкодер;

  3. Делаем SVD‑редукцию матрицы эмбеддингов;

  4. Запускаем rect_maxvol — алгоритм из линейной алгебры, который находит подматрицу максимального объёма, то есть набор максимально разнообразных и информативных кадров.

Результат — plug‑and‑play модуль, без дообучения, с постоянным CUDA‑потреблением независимо от длины видео. На LongVideoBench даёт прирост +3–5% к базовым LLaVA‑Video и Qwen2-VL без каких‑либо изменений в архитектуре модели.

Максим у постера MaxInfo – другой ракурс

Постер MaxInfo #133 — key‑frame selection для длинных видео

Feature Inversion as a Lens on Vision Encoders

“Feature Inversion as a Lens on Vision Encoders” Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov

Вторая работа задаёт красивый вопрос: что именно «видит» vision encoder? Если мы можем реконструировать изображение из замороженных признаков ViT, значит, эти признаки содержат достаточно информации. А если мы можем делать контролируемые правки в пространстве признаков и наблюдать предсказуемые изменения в реконструкции — значит, пространство признаков структурировано осмысленно.

Ключевая идея выражается коммутативной диаграммой:

Коммутативная диаграмма: если преобразование  в пространстве признаков (линейное, ортогональное) соответствует преобразованию  в пространстве изображений, то . Красивый геометрический взгляд на то, насколько кодирование визуальных признаков сохраняет геометрическую структуру.

Коммутативная диаграмма: если преобразование A_f в пространстве признаков (линейное, ортогональное) соответствует преобразованию A_i в пространстве изображений, то E(A_i(i))=A_f(E(i)). Красивый геометрический взгляд на то, насколько кодирование визуальных признаков сохраняет геометрическую структуру.

На практике это выглядит так: авторы тренируют лёгкий реконструктор R для каждого замороженного энкодера и показывают, что:

  • Все ViT‑энкодеры позволяют реконструировать изображения, но качество сильно зависит от разрешения и целевой функции предобучения;

  • Простые линейные преобразования в feature space дают предсказуемые цветовые трансформации в pixel space (например, перестановка red↔blue);

  • Энкодеры с image‑centric objectives (SigLIP2 ≫ SigLIP) сохраняют больше визуальной информации.

Этот постер вызвал много интереса — к нему постоянно подходили, обсуждали коммутативность преобразований и практические выводы для выбора энкодеров.

Ребята научились буквально «выворачивать» латентное пространство наизнанку, восстанавливая из него изображения. Самый любопытный хак: они показали, что простые геометрические манипуляции с векторами (например, повороты) позволяют предсказуемо менять разные атрибуты вроде цвета. Это хороший пример того, как за сложными весами скрывается строгая и красивая математическая структура.

Участник сканирует QR-код – интерес к работе есть!

Участник сканирует QR‑код — интерес к работе есть!

А ещё я пошёл на хитрость: стенд рядом с моими пустовал. Поэтому я распечатал и повесил два экземпляра постера по Feature Inversion рядом — получилось эффектно, оцените сами:

Два постера Feature Inversion на стенде

Два постера Feature Inversion на стенде

Люди и атмосфера

Отсутствие толп на конференции создавало особенную атмосферу, которую особенно сильно ощущаешь на фоне более многолюдных эвентов. На докладах было банально меньше стульев и больше кислорода.

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции - 15

Камерность WACV — это ещё и про разговоры. На большой конференции ты утопаешь в толпе; здесь ты реально знакомишься с людьми.

Исследователь у постера об open-vocabulary сегментации

“Let’s Connect” — атмосфера нетворкинга

Я тоже завёл себе несколько новых знакомых.

Пьер из EPFL

Одна из самых запомнившихся встреч — Пьер (Pierre Ancey), PhD‑студент первого года из EPFL. Его работа на конференции — FastPose‑ViT: ViT‑архитектура для оценки позы космических аппаратов в реальном времени по одному изображению. Модель напрямую регрессирует 6DoF позу без итеративных алгоритмов и достигает ~75 мс на кадр (до 33 FPS) на NVIDIA Jetson Orin Nano — впечатляющие показатели для edge‑устройства.

Но разговор быстро ушёл за пределы его научной работы. Оказалось, что Пьер параллельно с PhD активно использует Claude Code. Он превратил его буквально в фабрику по производству веб‑сайтов для состоятельных швейцарских клиентов. Полный цикл: от маркет‑ресёрча и анализа конкурентов, через создание макетов, до полноценного работающего сайта и его сопровождения — весь pipeline автоматизирован через Claude. Мы долго обсуждали возможности и ограничения Claude Code и оказалось, что наш опыт использования во многом совпадает, хотя контексты совершенно разные.

Хильда Кюне

Также удалось пообщаться с Hilde Kuehne из Tübingen AI Center / University of Tübingen. Её работа MM‑TS: Multi‑Modal Temperature and Margin Schedules была принята как Oral на WACV 2026 — это серьёзное признание. Идея: динамически подстраивать температуру в contrastive loss во время обучения мультимодальных моделей, модулируя силы притяжения и отталкивания. Для несбалансированных датасетов температура назначается в зависимости от плотности кластеров — более плотные получают более высокую температуру для сохранения семантической структуры. Подход унифицирует InfoNCE loss и max‑margin objectives, показывая state‑of‑the‑art на Flickr30K, MSCOCO, EPIC‑KITCHENS-100 и YouCook2.

Ещё из прикольного: на WACV 2026 поставили фотобудку, которая печатала фото с рамкой в честь 80-летия The Computer Vision Foundation.

Фотобудка WACV 2026 – “Capture your #WACV2026 memories”

Фотобудка WACV 2026 — “Capture your #WACV2026 memories”

Я конечно же, тоже сфотографировался:

Фотобудка – CVF 80th Anniversary

CVF 80th Anniversary Celebration

Тусон: пустыня, кактусы и +25°C в марте

Отдельная часть истории — сам город и окрестности. Тусон — это не курортный Лас‑Вегас и не деловой Феникс. Это академический город с университетом, испанским колониальным прошлым и пустыней прямо за порогом.

Пустыня Сонора

Сагуаро — кактусы, которые стоят как символ американского Запада на всех открытках — растут только здесь, в пустыне Сонора. Растут они не спеша и долго живут: 75-летний кактус — это полутораметровый ствол без единого бокового отростка. Те, у кого есть «руки», стоят по 150–200 лет.

Где‑то тут, вероятно, нашёл свой последний приют Эдвард Эбби — рейнджер, анархист и писатель, который работал в национальных парках Юго‑Запада и написал «Банду гаечного ключа». Никто не знает, где он лежит — известно только, что он умер в аризонской пустыне.

Рядом с Тусоном есть Saguaro National Park, разделённый на две секции, западную и восточную. Ехать минут 20 от центра. Если попадаешь туда на рассвете или закате, имеешь возможность запечатлеть одну из тех сцен, благодаря которым понимаешь, что планета большая и странная.

Холм, покрытый кактусами сагуаро

Поле сагуаро — этим кактусам по 150–200 лет

Фауна здесь тоже экзотичная. Причём, чтобы убедиться в этом, зачастую даже не нужно уходить глубоко в пустыню.

Эту ящерицу я встретил на стене нашего отеля

Эту ящерицу я встретил на стене нашего отеля

Атмосфера и темп

Тусон в целом — тихий, горизонтальный город. Горы вокруг со всех сторон (Santa Catalina, Rincon, Tucson Mountains). Воздух сухой. Ночью прохладно. Темп жизни несравнимо медленнее московского — это было немного дезориентирующе. 

Ниже — немного фото, чтобы передать атмосферу города.

Wendy’s на закате с драматичными облаками

Даже Wendy’s на фоне аризонского неба выглядит киношно
Bank of America – mid-century modern архитектура

Mid‑century modern архитектура Bank of America — Тусон полон таких находок
Мост Rio Santa Cruz – надпись об истории Тусона

Мемориал на мосту через Santa Cruz River. Является элементом солнечного искусства: днём при определённом положении Солнца тени он специальных структур соединяются с элементами на асфальте и формируют картину. Поскольку я был тут вечером, насладиться этим не удалось…
Мурал скейтбордистов под мостом

Cushing Street Skatepark Portrait Project — мурал под мостом

Еда

Мексиканская кухня здесь не «мексиканская», а сонорская — своя региональная история. Carne asada, chimichangas (это изобретение Тусона, если верить местным), green chile. Если окажетесь там — рекомендую хотя бы раз покушать за пределами отельного ресторана.

Впрочем, на конференции кормили тоже неплохо — Street Taco Station от JW Marriott с carne asada, chicken adobo и вегетарианскими тако стала хитом.

Street tacos (carne asada и вегетарианские), начос и кукурузный чаудер

Street tacos (carne asada и вегетарианские), начос и кукурузный чаудер

Еда на кофе‑брейках и постерных секциях тоже обладала местным колоритом:

Десерты на кофе-брейках и эмпанадас на постерной сессии

Десерты на кофе‑брейках и эмпанадас на постерной сессии

Вместо заключения

WACV — хорошая конференция для того, чтобы почувствовать пульс прикладного CV без перегруза NeurIPS‑масштаба. Плотность качественных работ высокая, люди доступны для разговора, локация в этот раз была просто красивым бонусом. Камерный формат на 200–300 человек — то, чего часто не хватает на больших конференциях.

А Тусон — это место, куда стоит вернуться просто так. Без постера.

Beef Jerky и Cactus Candy – аризонские сувениры

Сувениры из Аризоны, которые я привёз в Москву. Слева — Beef Jerky, легендарная вяленая говядина. Для исследователя, который следит за КБЖУ даже в командировках, это не просто сувенир, а стратегический запас чистого протеина. Идеальный контраст к сладостям Cactus Candy из кактуса опунции (справа) — суровое мясо Аризоны против нежного мармелада.

Автор: Fr0do

Источник