- BrainTools - https://www.braintools.ru -

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто!

В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке [1], и по ощущениям, и очень хочется поделиться увиденным!

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции - 1

WACV — что это вообще за конференция?

IEEE/CVF Winter Conference on Applications of Computer Vision — это «младший брат» CVPR. Принято считать её более прикладной: меньше теории ради теории, больше систем, датасетов, промышленных применений. Акцепт около 25–30% — по меркам топовых CV конференций вполне лояльно.

При этом конференция камерная — 200–300 человек, не тысячи, как на NeurIPS или ICCV. И это огромный плюс: реально можно подойти к автору работы, которая тебя интересует, и поговорить с ним без очереди. Уровень и организации, и принятых работ при этом высокий. Поэтому «маленькая конференция» в отношении WACV звучит даже как будто немного оскорбительно, я бы предпочёл вариант «конференция правильного размера».

Тусон организаторы выбирают уже не первый год подряд. Место проведения — JW Marriott Starr Pass Resort, гостиница прямо посреди пустыни. Все сессии, постеры и кофе‑брейки в одном здании. Красиво. Но есть нюанс: отель стоит на отшибе, ближайшая остановка общественного транспорта в пяти километрах. Каждый день — такси или Uber, как и у большинства участников. Зато вышел из зала заседаний — а перед тобой сагуаро в метре от дорожки.

JW Marriott Starr Pass – venue конференции на фоне пустынных холмов

JW Marriott Starr Pass Resort — место проведения конференции посреди пустыни Сонора
Открытая терраса Marriott

Открытая терраса Marriott — горы, кактусы, люди за столами
Расписание постерных сессий

Расписание постерных сессий

Конференцию, как это обычно бывает, открывали воркшопы и туториалы. В основном треке были как постеры, так и оралы — три дня, шесть сессий. 

Что было интересного на конференции

Если говорить о трендах, которые в целом были представлены на WAVC 2026, то я бы выделил несколько ключевых вещей. Но в общем можно сказать, что индустрия Computer Vision окончательно перешла к генеративно‑центричному подходу. Основной фокус сместился с количества данных на эффективность выборки через диффузионный синтез и на динамическую плотность вычислений через адаптивное управление токенами в трансформерах.

Мультимодальность как новый стандарт

Если три года назад «мультимодальная модель» звучало как что‑то экзотическое, сейчас это просто норма. Огромная доля работ на WACV так или иначе задействует совместное обучение [2] на тексте и изображениях. Вопрос уже не «зачем», а «как именно» — какие архитектурные решения, как выровнять пространства, как бороться с модальным доминированием.

Синтетические данные и аугментация данных

Диффузионные модели окончательно вошли в состав инструментов компьютерного зрения [3] как генераторы обучающих данных. Несколько работ показывали результаты, где synthetic‑only pipeline обгоняет реальные данные на специфических доменах (медицина, спутниковые снимки, промышленный контроль качества). Это меняет логику [4] построения датасетов фундаментально.

На WACV 2026 одной из центральных тем стал “Cold Start” — обучение моделей в условиях полного отсутствия реальных размеченных данных. Вот несколько примеров:

  • SynSacc: A Blender-to-V2E Pipeline for Synthetic Neuromorphic Eye-Movement Data and Sim-to-Real Spiking Model Training [5]

    Суть: Авторы доказывают, что чисто синтетический пайплайн (Blender → Event‑симулятор) позволяет обучать SNN‑модели для отслеживания саккад глаза, которые показывают стабильную точность на реальных данных.

  • TalkingPose: Efficient Face and Gesture Animation with Feedback-guided Diffusion Model [6]

    Суть: Работа о генерации согласованных движений и мимики. Использование диффузионных моделей с обратной связью позволяет создавать обучающие выборки для анимации, которые по качеству и разнообразию превосходят доступные видео‑датасеты.

  • PHYSPLAT: Photorealistic Hybrid Simulation of Real and Synthetic Elements [7] 

    Суть: Фреймворк на базе 3D Gaussian Splatting для смешивания реальных сцен с синтетическими объектами. Это решает проблему «нереалистичности» синтетики в задачах автономного вождения.

Эффективность — не только quantization

Тема сжатия и ускорения моделей никуда не ушла, но стала интереснее. Помимо классической квантизации активно обсуждались: structured pruning с сохранением семантики, knowledge distillation с мультиагентными учителями, адаптивное вычисление (early exit, token merging в ViT). Впечатление [8], что поле дозрело до более нюансированных подходов.

Тренды WACV 2026 показывают уход от простой квантизации к методам, которые динамически меняют сложность вычислений в зависимости от входного изображения. Вот несколько примечательных работ:

  • EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation [9]

    Суть: Предложен метод прунинга визуальных токенов на основе k‑center с учетом пространственной информации. Достигнуто ускорение в 5 раз для видео‑задач при сохранении точности с использованием всего 20% токенов.

  • Token Fusion: Bridging the Gap between Token Pruning and Token Merging [10] (Published late 2025/2026 context)

    Суть: Гибридный подход (STEP: SuperToken and Early‑Pruning), который объединяет динамическое слияние патчей и прунинг. Это позволяет обходить ошибки [11] стандартного прунинга, когда важные детали фона могли быть случайно удалены.

  • Accelerating Vision Transformers with Adaptive Patch Sizes (APT) [12] (Late 2025, обсуждалось в контексте WACV)

    Суть: Вместо фиксированной сетки патчей модель использует крупные патчи для однородных областей и мелкие для сложных деталей. Увеличение пропускной способности на 40–50% для тяжелых моделей (ViT‑L/H).

Video understanding как незакрытая проблема

Много работ про видео — и это честный сигнал, что проблема всё ещё открыта. Трансформеры с временным вниманием [13], state space модели для видеоконтекста, long‑form video QA. Данных много, бенчмарки растут, но «понимания» в полном смысле пока нет.

Доклад Mehmet Onurcan Kaya о Video Instance Segmentation

Доклад Mehmet Onurcan Kaya [14] о Video Instance Segmentation

Постеры традиционно составляют основную массу докладов. Авторы некоторых из них пытались выделиться форматом или размером. 

Автор у постера CLIP’s Visual Embedding Projector

Автор представляет постер “CLIP’s Visual Embedding Projector is a Few-shot Cornucopia”. Места почти хватило!

Наши работы: MaxInfo и Feature Inversion

На WACV мы привезли две работы из FusionBrain Lab. Обе — постеры, и обе я представлял лично, поскольку сами авторы не смогли приехать. 

MaxInfo: умный выбор ключевых кадров для видео

“MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding” [15] Pengyi Li, Irina Abdullaeva, Alexander Gambashidze, Andrey Kuznetsov, Ivan Oseledets

Идея элегантная в своей простоте. Video Large Language Models при работе с длинными видео упираются в ограничения контекстного окна. Обычно кадры выбирают равномерно — каждый N‑й кадр. Но это игнорирует содержание: на статичных сценах кадры дублируются, а ключевые моменты могут быть пропущены.

MaxInfo решает это так: 

  1. Равномерно семплируем N начальных кадров;

  2. Получаем CLS‑эмбеддинги через ViT‑энкодер;

  3. Делаем SVD‑редукцию матрицы эмбеддингов;

  4. Запускаем rect_maxvol — алгоритм из линейной алгебры, который находит подматрицу максимального объёма, то есть набор максимально разнообразных и информативных кадров.

Результат — plug‑and‑play модуль, без дообучения, с постоянным CUDA‑потреблением независимо от длины видео. На LongVideoBench даёт прирост +3–5% к базовым LLaVA‑Video и Qwen2-VL без каких‑либо изменений в архитектуре модели.

Максим у постера MaxInfo – другой ракурс

Постер MaxInfo #133 — key‑frame selection для длинных видео

Feature Inversion as a Lens on Vision Encoders

“Feature Inversion as a Lens on Vision Encoders” [16] Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov

Вторая работа задаёт красивый вопрос: что именно «видит» vision encoder? Если мы можем реконструировать изображение из замороженных признаков ViT, значит, эти признаки содержат достаточно информации. А если мы можем делать контролируемые правки в пространстве признаков и наблюдать предсказуемые изменения в реконструкции — значит, пространство признаков структурировано осмысленно.

Ключевая идея выражается коммутативной диаграммой:

Коммутативная диаграмма: если преобразование  в пространстве признаков (линейное, ортогональное) соответствует преобразованию  в пространстве изображений, то . Красивый геометрический взгляд на то, насколько кодирование визуальных признаков сохраняет геометрическую структуру.

Коммутативная диаграмма: если преобразование A_f в пространстве признаков (линейное, ортогональное) соответствует преобразованию A_i в пространстве изображений, то E(A_i(i))=A_f(E(i)). Красивый геометрический взгляд на то, насколько кодирование визуальных признаков сохраняет геометрическую структуру.

На практике это выглядит так: авторы тренируют лёгкий реконструктор R для каждого замороженного энкодера и показывают, что:

  • Все ViT‑энкодеры позволяют реконструировать изображения, но качество сильно зависит от разрешения и целевой функции предобучения;

  • Простые линейные преобразования в feature space дают предсказуемые цветовые трансформации в pixel space (например, перестановка red↔blue);

  • Энкодеры с image‑centric objectives (SigLIP2 ≫ SigLIP) сохраняют больше визуальной информации.

Этот постер вызвал много интереса [17] — к нему постоянно подходили, обсуждали коммутативность преобразований и практические выводы для выбора энкодеров.

Ребята научились буквально «выворачивать» латентное пространство наизнанку, восстанавливая из него изображения. Самый любопытный хак: они показали, что простые геометрические манипуляции с векторами (например, повороты) позволяют предсказуемо менять разные атрибуты вроде цвета. Это хороший пример того, как за сложными весами скрывается строгая и красивая математическая структура.

Участник сканирует QR-код – интерес к работе есть!

Участник сканирует QR‑код — интерес к работе есть!

А ещё я пошёл на хитрость: стенд рядом с моими пустовал. Поэтому я распечатал и повесил два экземпляра постера по Feature Inversion рядом — получилось эффектно, оцените сами:

Два постера Feature Inversion на стенде

Два постера Feature Inversion на стенде

Люди и атмосфера

Отсутствие толп на конференции создавало особенную атмосферу, которую особенно сильно ощущаешь на фоне более многолюдных эвентов. На докладах было банально меньше стульев и больше кислорода [18].

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции - 15

Камерность WACV — это ещё и про разговоры. На большой конференции ты утопаешь в толпе; здесь ты реально знакомишься с людьми.

Исследователь у постера об open-vocabulary сегментации

“Let’s Connect” — атмосфера нетворкинга

Я тоже завёл себе несколько новых знакомых.

Пьер из EPFL

Одна из самых запомнившихся встреч — Пьер (Pierre Ancey), PhD‑студент первого года из EPFL. Его работа на конференции — FastPose‑ViT [19]: ViT‑архитектура для оценки позы космических аппаратов в реальном времени по одному изображению. Модель напрямую регрессирует 6DoF позу без итеративных алгоритмов и достигает ~75 мс на кадр (до 33 FPS) на NVIDIA Jetson Orin Nano — впечатляющие показатели для edge‑устройства.

Но разговор быстро ушёл за пределы его научной работы. Оказалось, что Пьер параллельно с PhD активно использует Claude Code. Он превратил его буквально в фабрику по производству веб‑сайтов для состоятельных швейцарских клиентов. Полный цикл: от маркет‑ресёрча и анализа конкурентов, через создание макетов, до полноценного работающего сайта и его сопровождения — весь pipeline автоматизирован через Claude. Мы долго обсуждали возможности и ограничения Claude Code и оказалось, что наш опыт [20] использования во многом совпадает, хотя контексты совершенно разные.

Хильда Кюне

Также удалось пообщаться с Hilde Kuehne [21] из Tübingen AI Center / University of Tübingen. Её работа MM‑TS: Multi‑Modal Temperature and Margin Schedules [22] была принята как Oral на WACV 2026 — это серьёзное признание. Идея: динамически подстраивать температуру в contrastive loss во время обучения мультимодальных моделей, модулируя силы притяжения и отталкивания. Для несбалансированных датасетов температура назначается в зависимости от плотности кластеров — более плотные получают более высокую температуру для сохранения семантической структуры. Подход унифицирует InfoNCE loss и max‑margin objectives, показывая state‑of‑the‑art на Flickr30K, MSCOCO, EPIC‑KITCHENS-100 и YouCook2.

Ещё из прикольного: на WACV 2026 поставили фотобудку, которая печатала фото с рамкой в честь 80-летия The Computer Vision Foundation.

Фотобудка WACV 2026 – “Capture your #WACV2026 memories”

Фотобудка WACV 2026 — “Capture your #WACV2026 memories”

Я конечно же, тоже сфотографировался:

Фотобудка – CVF 80th Anniversary

CVF 80th Anniversary Celebration

Тусон: пустыня, кактусы и +25°C в марте

Отдельная часть истории — сам город и окрестности. Тусон — это не курортный Лас‑Вегас и не деловой Феникс. Это академический город с университетом, испанским колониальным прошлым и пустыней прямо за порогом.

Пустыня Сонора

Сагуаро — кактусы, которые стоят как символ американского Запада на всех открытках — растут только здесь, в пустыне Сонора. Растут они не спеша и долго живут: 75-летний кактус — это полутораметровый ствол без единого бокового отростка. Те, у кого есть «руки», стоят по 150–200 лет.

Где‑то тут, вероятно, нашёл свой последний приют Эдвард Эбби — рейнджер, анархист и писатель, который работал в национальных парках Юго‑Запада и написал «Банду гаечного ключа». Никто не знает, где он лежит — известно только, что он умер в аризонской пустыне.

Рядом с Тусоном есть Saguaro National Park, разделённый на две секции, западную и восточную. Ехать минут 20 от центра. Если попадаешь туда на рассвете или закате, имеешь возможность запечатлеть одну из тех сцен, благодаря которым понимаешь, что планета большая и странная.

Холм, покрытый кактусами сагуаро

Поле сагуаро — этим кактусам по 150–200 лет

Фауна здесь тоже экзотичная. Причём, чтобы убедиться в этом, зачастую даже не нужно уходить глубоко в пустыню.

Эту ящерицу я встретил на стене нашего отеля

Эту ящерицу я встретил на стене нашего отеля

Атмосфера и темп

Тусон в целом — тихий, горизонтальный город. Горы вокруг со всех сторон (Santa Catalina, Rincon, Tucson Mountains). Воздух сухой. Ночью прохладно. Темп жизни несравнимо медленнее московского — это было немного дезориентирующе. 

Ниже — немного фото, чтобы передать атмосферу города.

Wendy’s на закате с драматичными облаками

Даже Wendy’s на фоне аризонского неба выглядит киношно
Bank of America – mid-century modern архитектура

Mid‑century modern архитектура Bank of America — Тусон полон таких находок
Мост Rio Santa Cruz – надпись об истории Тусона

Мемориал на мосту через Santa Cruz River. Является элементом солнечного искусства: днём при определённом положении Солнца тени он специальных структур соединяются [23] с элементами на асфальте и формируют картину. Поскольку я был тут вечером, насладиться этим не удалось…
Мурал скейтбордистов под мостом

Cushing Street Skatepark Portrait Project — мурал под мостом

Еда

Мексиканская кухня здесь не «мексиканская», а сонорская — своя региональная история. Carne asada, chimichangas (это изобретение Тусона, если верить местным), green chile. Если окажетесь там — рекомендую хотя бы раз покушать за пределами отельного ресторана.

Впрочем, на конференции кормили тоже неплохо — Street Taco Station от JW Marriott с carne asada, chicken adobo и вегетарианскими тако стала хитом.

Street tacos (carne asada и вегетарианские), начос и кукурузный чаудер

Street tacos (carne asada и вегетарианские), начос и кукурузный чаудер

Еда на кофе‑брейках и постерных секциях тоже обладала местным колоритом:

Десерты на кофе-брейках и эмпанадас на постерной сессии

Десерты на кофе‑брейках и эмпанадас на постерной сессии

Вместо заключения

WACV — хорошая конференция для того, чтобы почувствовать пульс прикладного CV без перегруза NeurIPS‑масштаба. Плотность качественных работ высокая, люди доступны для разговора, локация в этот раз была просто красивым бонусом. Камерный формат на 200–300 человек — то, чего часто не хватает на больших конференциях.

А Тусон — это место, куда стоит вернуться просто так. Без постера.

Beef Jerky и Cactus Candy – аризонские сувениры

Сувениры из Аризоны, которые я привёз в Москву. Слева — Beef Jerky, легендарная вяленая говядина. Для исследователя, который следит за КБЖУ даже в командировках, это не просто сувенир, а стратегический запас чистого протеина. Идеальный контраст к сладостям Cactus Candy из кактуса опунции (справа) — суровое мясо Аризоны против нежного мармелада.

Автор: Fr0do

Источник [24]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28351

URLs in this post:

[1] науке: http://www.braintools.ru/article/7634

[2] обучение: http://www.braintools.ru/article/5125

[3] зрения: http://www.braintools.ru/article/6238

[4] логику: http://www.braintools.ru/article/7640

[5] SynSacc: A Blender-to-V2E Pipeline for Synthetic Neuromorphic Eye-Movement Data and Sim-to-Real Spiking Model Training: https://openaccess.thecvf.com/content/WACV2026W/EVGEN-2026/html/Iddrisu_SynSacc_A_Blender-to-V2E_Pipeline_for_Synthetic_Neuromorphic_Eye-Movement_Data_and_WACVW_2026_paper.html

[6] TalkingPose: Efficient Face and Gesture Animation with Feedback-guided Diffusion Model: https://av.dfki.de/av_dataset_categories/internal/

[7] PHYSPLAT: Photorealistic Hybrid Simulation of Real and Synthetic Elements: https://www.rsipvision.com/WACV2026-Monday/

[8] Впечатление: http://www.braintools.ru/article/2012

[9] EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation: https://openaccess.thecvf.com/content/WACV2026/html/Zhu_EVTP-IVS_Effective_Visual_Token_Pruning_For_Unifying_Instruction_Visual_Segmentation_WACV_2026_paper.html

[10] Token Fusion: Bridging the Gap between Token Pruning and Token Merging: https://www.researchgate.net/publication/379721697_Token_Fusion_Bridging_the_Gap_between_Token_Pruning_and_Token_Merging

[11] ошибки: http://www.braintools.ru/article/4192

[12] Accelerating Vision Transformers with Adaptive Patch Sizes (APT): https://arxiv.org/abs/2510.18091

[13] вниманием: http://www.braintools.ru/article/7595

[14] Mehmet Onurcan Kaya: https://scholar.google.com/citations?user=fJDt1ycAAAAJ&hl=tr

[15] “MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding”: https://openaccess.thecvf.com/content/WACV2026/papers/Li_MaxInfo_A_Training-Free_Key-Frame_Selection_Method_Using_Maximum_Volume_for_WACV_2026_paper.pdf

[16] “Feature Inversion as a Lens on Vision Encoders”: https://openaccess.thecvf.com/content/WACV2026/html/Allakhverdov_Feature_Inversion_as_a_Lens_on_Vision_Encoders_WACV_2026_paper.html

[17] интереса: http://www.braintools.ru/article/4220

[18] кислорода: http://www.braintools.ru/article/5138

[19] FastPose‑ViT: https://arxiv.org/abs/2512.09792

[20] опыт: http://www.braintools.ru/article/6952

[21] Hilde Kuehne: https://hildekuehne.github.io/

[22] MM‑TS: Multi‑Modal Temperature and Margin Schedules: https://arxiv.org/abs/2603.08202

[23] соединяются: https://occupiedtucsoncitizen.org/?p=6549

[24] Источник: https://habr.com/ru/companies/airi/articles/1018010/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1018010

www.BrainTools.ru

Rambler's Top100