Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто!
В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

WACV — что это вообще за конференция?
IEEE/CVF Winter Conference on Applications of Computer Vision — это «младший брат» CVPR. Принято считать её более прикладной: меньше теории ради теории, больше систем, датасетов, промышленных применений. Акцепт около 25–30% — по меркам топовых CV конференций вполне лояльно.
При этом конференция камерная — 200–300 человек, не тысячи, как на NeurIPS или ICCV. И это огромный плюс: реально можно подойти к автору работы, которая тебя интересует, и поговорить с ним без очереди. Уровень и организации, и принятых работ при этом высокий. Поэтому «маленькая конференция» в отношении WACV звучит даже как будто немного оскорбительно, я бы предпочёл вариант «конференция правильного размера».
Тусон организаторы выбирают уже не первый год подряд. Место проведения — JW Marriott Starr Pass Resort, гостиница прямо посреди пустыни. Все сессии, постеры и кофе‑брейки в одном здании. Красиво. Но есть нюанс: отель стоит на отшибе, ближайшая остановка общественного транспорта в пяти километрах. Каждый день — такси или Uber, как и у большинства участников. Зато вышел из зала заседаний — а перед тобой сагуаро в метре от дорожки.
Конференцию, как это обычно бывает, открывали воркшопы и туториалы. В основном треке были как постеры, так и оралы — три дня, шесть сессий.
Что было интересного на конференции
Если говорить о трендах, которые в целом были представлены на WAVC 2026, то я бы выделил несколько ключевых вещей. Но в общем можно сказать, что индустрия Computer Vision окончательно перешла к генеративно‑центричному подходу. Основной фокус сместился с количества данных на эффективность выборки через диффузионный синтез и на динамическую плотность вычислений через адаптивное управление токенами в трансформерах.
Мультимодальность как новый стандарт
Если три года назад «мультимодальная модель» звучало как что‑то экзотическое, сейчас это просто норма. Огромная доля работ на WACV так или иначе задействует совместное обучение на тексте и изображениях. Вопрос уже не «зачем», а «как именно» — какие архитектурные решения, как выровнять пространства, как бороться с модальным доминированием.
Синтетические данные и аугментация данных
Диффузионные модели окончательно вошли в состав инструментов компьютерного зрения как генераторы обучающих данных. Несколько работ показывали результаты, где synthetic‑only pipeline обгоняет реальные данные на специфических доменах (медицина, спутниковые снимки, промышленный контроль качества). Это меняет логику построения датасетов фундаментально.
На WACV 2026 одной из центральных тем стал “Cold Start” — обучение моделей в условиях полного отсутствия реальных размеченных данных. Вот несколько примеров:
-
Суть: Авторы доказывают, что чисто синтетический пайплайн (Blender → Event‑симулятор) позволяет обучать SNN‑модели для отслеживания саккад глаза, которые показывают стабильную точность на реальных данных.
-
TalkingPose: Efficient Face and Gesture Animation with Feedback-guided Diffusion Model
Суть: Работа о генерации согласованных движений и мимики. Использование диффузионных моделей с обратной связью позволяет создавать обучающие выборки для анимации, которые по качеству и разнообразию превосходят доступные видео‑датасеты.
-
PHYSPLAT: Photorealistic Hybrid Simulation of Real and Synthetic Elements
Суть: Фреймворк на базе 3D Gaussian Splatting для смешивания реальных сцен с синтетическими объектами. Это решает проблему «нереалистичности» синтетики в задачах автономного вождения.
Эффективность — не только quantization
Тема сжатия и ускорения моделей никуда не ушла, но стала интереснее. Помимо классической квантизации активно обсуждались: structured pruning с сохранением семантики, knowledge distillation с мультиагентными учителями, адаптивное вычисление (early exit, token merging в ViT). Впечатление, что поле дозрело до более нюансированных подходов.
Тренды WACV 2026 показывают уход от простой квантизации к методам, которые динамически меняют сложность вычислений в зависимости от входного изображения. Вот несколько примечательных работ:
-
EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation
Суть: Предложен метод прунинга визуальных токенов на основе k‑center с учетом пространственной информации. Достигнуто ускорение в 5 раз для видео‑задач при сохранении точности с использованием всего 20% токенов.
-
Token Fusion: Bridging the Gap between Token Pruning and Token Merging (Published late 2025/2026 context)
Суть: Гибридный подход (STEP: SuperToken and Early‑Pruning), который объединяет динамическое слияние патчей и прунинг. Это позволяет обходить ошибки стандартного прунинга, когда важные детали фона могли быть случайно удалены.
-
Accelerating Vision Transformers with Adaptive Patch Sizes (APT) (Late 2025, обсуждалось в контексте WACV)
Суть: Вместо фиксированной сетки патчей модель использует крупные патчи для однородных областей и мелкие для сложных деталей. Увеличение пропускной способности на 40–50% для тяжелых моделей (ViT‑L/H).
Video understanding как незакрытая проблема
Много работ про видео — и это честный сигнал, что проблема всё ещё открыта. Трансформеры с временным вниманием, state space модели для видеоконтекста, long‑form video QA. Данных много, бенчмарки растут, но «понимания» в полном смысле пока нет.
Постеры традиционно составляют основную массу докладов. Авторы некоторых из них пытались выделиться форматом или размером.
Наши работы: MaxInfo и Feature Inversion
На WACV мы привезли две работы из FusionBrain Lab. Обе — постеры, и обе я представлял лично, поскольку сами авторы не смогли приехать.
MaxInfo: умный выбор ключевых кадров для видео
“MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding” Pengyi Li, Irina Abdullaeva, Alexander Gambashidze, Andrey Kuznetsov, Ivan Oseledets
Идея элегантная в своей простоте. Video Large Language Models при работе с длинными видео упираются в ограничения контекстного окна. Обычно кадры выбирают равномерно — каждый N‑й кадр. Но это игнорирует содержание: на статичных сценах кадры дублируются, а ключевые моменты могут быть пропущены.
MaxInfo решает это так:
-
Равномерно семплируем N начальных кадров;
-
Получаем CLS‑эмбеддинги через ViT‑энкодер;
-
Делаем SVD‑редукцию матрицы эмбеддингов;
-
Запускаем rect_maxvol — алгоритм из линейной алгебры, который находит подматрицу максимального объёма, то есть набор максимально разнообразных и информативных кадров.
Результат — plug‑and‑play модуль, без дообучения, с постоянным CUDA‑потреблением независимо от длины видео. На LongVideoBench даёт прирост +3–5% к базовым LLaVA‑Video и Qwen2-VL без каких‑либо изменений в архитектуре модели.
Feature Inversion as a Lens on Vision Encoders
“Feature Inversion as a Lens on Vision Encoders” Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
Вторая работа задаёт красивый вопрос: что именно «видит» vision encoder? Если мы можем реконструировать изображение из замороженных признаков ViT, значит, эти признаки содержат достаточно информации. А если мы можем делать контролируемые правки в пространстве признаков и наблюдать предсказуемые изменения в реконструкции — значит, пространство признаков структурировано осмысленно.
Ключевая идея выражается коммутативной диаграммой:
На практике это выглядит так: авторы тренируют лёгкий реконструктор для каждого замороженного энкодера и показывают, что:
-
Все ViT‑энкодеры позволяют реконструировать изображения, но качество сильно зависит от разрешения и целевой функции предобучения;
-
Простые линейные преобразования в feature space дают предсказуемые цветовые трансформации в pixel space (например, перестановка red↔blue);
-
Энкодеры с image‑centric objectives (SigLIP2 ≫ SigLIP) сохраняют больше визуальной информации.
Этот постер вызвал много интереса — к нему постоянно подходили, обсуждали коммутативность преобразований и практические выводы для выбора энкодеров.
Ребята научились буквально «выворачивать» латентное пространство наизнанку, восстанавливая из него изображения. Самый любопытный хак: они показали, что простые геометрические манипуляции с векторами (например, повороты) позволяют предсказуемо менять разные атрибуты вроде цвета. Это хороший пример того, как за сложными весами скрывается строгая и красивая математическая структура.
А ещё я пошёл на хитрость: стенд рядом с моими пустовал. Поэтому я распечатал и повесил два экземпляра постера по Feature Inversion рядом — получилось эффектно, оцените сами:
Люди и атмосфера
Отсутствие толп на конференции создавало особенную атмосферу, которую особенно сильно ощущаешь на фоне более многолюдных эвентов. На докладах было банально меньше стульев и больше кислорода.

Камерность WACV — это ещё и про разговоры. На большой конференции ты утопаешь в толпе; здесь ты реально знакомишься с людьми.
Я тоже завёл себе несколько новых знакомых.
Пьер из EPFL
Одна из самых запомнившихся встреч — Пьер (Pierre Ancey), PhD‑студент первого года из EPFL. Его работа на конференции — FastPose‑ViT: ViT‑архитектура для оценки позы космических аппаратов в реальном времени по одному изображению. Модель напрямую регрессирует 6DoF позу без итеративных алгоритмов и достигает ~75 мс на кадр (до 33 FPS) на NVIDIA Jetson Orin Nano — впечатляющие показатели для edge‑устройства.
Но разговор быстро ушёл за пределы его научной работы. Оказалось, что Пьер параллельно с PhD активно использует Claude Code. Он превратил его буквально в фабрику по производству веб‑сайтов для состоятельных швейцарских клиентов. Полный цикл: от маркет‑ресёрча и анализа конкурентов, через создание макетов, до полноценного работающего сайта и его сопровождения — весь pipeline автоматизирован через Claude. Мы долго обсуждали возможности и ограничения Claude Code и оказалось, что наш опыт использования во многом совпадает, хотя контексты совершенно разные.
Хильда Кюне
Также удалось пообщаться с Hilde Kuehne из Tübingen AI Center / University of Tübingen. Её работа MM‑TS: Multi‑Modal Temperature and Margin Schedules была принята как Oral на WACV 2026 — это серьёзное признание. Идея: динамически подстраивать температуру в contrastive loss во время обучения мультимодальных моделей, модулируя силы притяжения и отталкивания. Для несбалансированных датасетов температура назначается в зависимости от плотности кластеров — более плотные получают более высокую температуру для сохранения семантической структуры. Подход унифицирует InfoNCE loss и max‑margin objectives, показывая state‑of‑the‑art на Flickr30K, MSCOCO, EPIC‑KITCHENS-100 и YouCook2.
Ещё из прикольного: на WACV 2026 поставили фотобудку, которая печатала фото с рамкой в честь 80-летия The Computer Vision Foundation.
Я конечно же, тоже сфотографировался:
Тусон: пустыня, кактусы и +25°C в марте
Отдельная часть истории — сам город и окрестности. Тусон — это не курортный Лас‑Вегас и не деловой Феникс. Это академический город с университетом, испанским колониальным прошлым и пустыней прямо за порогом.
Пустыня Сонора
Сагуаро — кактусы, которые стоят как символ американского Запада на всех открытках — растут только здесь, в пустыне Сонора. Растут они не спеша и долго живут: 75-летний кактус — это полутораметровый ствол без единого бокового отростка. Те, у кого есть «руки», стоят по 150–200 лет.
Где‑то тут, вероятно, нашёл свой последний приют Эдвард Эбби — рейнджер, анархист и писатель, который работал в национальных парках Юго‑Запада и написал «Банду гаечного ключа». Никто не знает, где он лежит — известно только, что он умер в аризонской пустыне.
Рядом с Тусоном есть Saguaro National Park, разделённый на две секции, западную и восточную. Ехать минут 20 от центра. Если попадаешь туда на рассвете или закате, имеешь возможность запечатлеть одну из тех сцен, благодаря которым понимаешь, что планета большая и странная.
Фауна здесь тоже экзотичная. Причём, чтобы убедиться в этом, зачастую даже не нужно уходить глубоко в пустыню.
Атмосфера и темп
Тусон в целом — тихий, горизонтальный город. Горы вокруг со всех сторон (Santa Catalina, Rincon, Tucson Mountains). Воздух сухой. Ночью прохладно. Темп жизни несравнимо медленнее московского — это было немного дезориентирующе.
Ниже — немного фото, чтобы передать атмосферу города.
Еда
Мексиканская кухня здесь не «мексиканская», а сонорская — своя региональная история. Carne asada, chimichangas (это изобретение Тусона, если верить местным), green chile. Если окажетесь там — рекомендую хотя бы раз покушать за пределами отельного ресторана.
Впрочем, на конференции кормили тоже неплохо — Street Taco Station от JW Marriott с carne asada, chicken adobo и вегетарианскими тако стала хитом.
Еда на кофе‑брейках и постерных секциях тоже обладала местным колоритом:
Вместо заключения
WACV — хорошая конференция для того, чтобы почувствовать пульс прикладного CV без перегруза NeurIPS‑масштаба. Плотность качественных работ высокая, люди доступны для разговора, локация в этот раз была просто красивым бонусом. Камерный формат на 200–300 человек — то, чего часто не хватает на больших конференциях.
А Тусон — это место, куда стоит вернуться просто так. Без постера.
Автор: Fr0do


