Визуальный поиск: Новый подход к обнаружению объектов

Автор: Денис Аветисян

Исследователи представили LocateAnything – систему, значительно ускоряющую и повышающую точность поиска объектов на изображениях по текстовому описанию.

Предложенная система, LocateAnything, объединяет разнообразные задачи локализации под единой нейронной сетью, применяя новаторский подход к декодированию координат: вместо последовательного определения каждой цифры координат или предсказания отдельных токенов, система предсказывает геометрические единицы, такие как ограничивающие рамки, за один прямой проход, что обеспечивает значительное повышение эффективности и гибкости.

Метод LocateAnything использует параллельное декодирование ограничивающих рамок для улучшения скорости и качества визуального обоснования и обнаружения объектов.

Существующие модели для визуального обоснования и обнаружения объектов часто страдают от низкой скорости и неэффективности из-за последовательной обработки координат ограничивающих рамок. В данной работе представлена система ‘LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding’ – унифицированный фреймворк, использующий параллельное декодирование ограничивающих рамок для значительного ускорения и повышения точности задач визуального обоснования и обнаружения объектов. Внедрение параллельного декодирования позволяет сохранить геометрическую согласованность и обеспечить существенный прирост производительности, что подтверждено на крупномасштабном датасете LocateAnything-Data. Способны ли подобные подходы открыть новые горизонты для создания более эффективных и точных систем компьютерного зрения ^[1]?

Препятствие Последовательного Декодирования

Современные модели, объединяющие зрение и язык, часто полагаются на последовательное декодирование, подобно предсказанию следующего слова в предложении. Такой подход создает вычислительное препятствие, особенно при решении сложных задач. Эта последовательность ограничивает скорость и точность определения местоположения объектов и детального сопоставления визуальной информации с текстовыми описаниями. Существующие методы испытывают трудности с эффективной обработкой визуальных данных и созданием полных описаний, что сужает сферу их практического применения. Вместо одновременной обработки всей информации, модель вынуждена анализировать ее по частям, что замедляет процесс и снижает качество результата, особенно в ситуациях, требующих быстрого и точного восприятия ^[2] визуальной сцены.

В задачах оптического распознавания символов, LocateAnything обеспечивает точное выделение текстовых элементов как в неструктурированных (например, обложки журналов), так и в структурированных документах (например, таблицы), в отличие от базовых моделей, которые часто демонстрируют ошибки форматирования или объединяют отдельные текстовые блоки. — В задачах оптического распознавания символов, LocateAnything обеспечивает точное выделение текстовых элементов как в неструктурированных (например, обложки журналов), так и в структурированных документах (например, таблицы), в отличие от базовых моделей, которые часто демонстрируют ошибки ^[3] форматирования или объединяют отдельные текстовые блоки.

Революция в обнаружении объектов: Параллельное декодирование прямоугольных областей

Метод Параллельного декодирования прямоугольных областей, представленный LocateAnything, знаменует собой существенный прорыв в скорости обработки изображений. В отличие от традиционных подходов, требующих последовательного определения координат ограничивающих прямоугольников для каждого объекта, данная техника предсказывает их координаты за один проход. Это достигается благодаря использованию Мульти-токенного предсказания, позволяющего одновременно обрабатывать несколько объектов, что приводит к впечатляющему увеличению скорости обработки – в 2,5 раза. Такая параллелизация особенно важна для приложений, требующих обработки в реальном времени, и для анализа сложных сцен с большим количеством объектов, где быстрая и эффективная обработка является ключевым фактором.

В условиях высокой плотности объектов и значительного перекрытия, представленный подход LocateAnything демонстрирует превосходство над традиционными моделями токенизации и основанными на точках, обеспечивая компактные, чётко разграниченные и точные ограничивающие рамки благодаря блочной внутри-вниманию и обучению на этапе Stage-2 с учетом плотности. — В условиях высокой плотности объектов и значительного перекрытия, представленный подход LocateAnything демонстрирует превосходство над традиционными моделями токенизации и основанными на точках, обеспечивая компактные, чётко разграниченные и точные ограничивающие рамки благодаря блочной внутри-вниманию и обучению ^[4] на этапе Stage-2 с учетом плотности.

Оптимальная производительность благодаря гибридному декодированию

В основе LocateAnything лежит режим гибридного декодирования, который объединяет скорость параллельного декодирования с точностью последовательных методов. Эта стратегия позволяет модели динамически адаптироваться к задачам, используя быстрый режим для областей, где требуется высокая скорость обработки, и сохраняя прецизионность в критически важных участках. Экспериментальные результаты демонстрируют, что данный подход превосходит традиционные методы на стандартных наборах данных: достигнут показатель F1@mIoU в 52.0 для COCO, 79.8 для DocLayNet, 83.9 для F1@Point в COCO и 87.6 для Dense200. Таким образом, гибридный подход обеспечивает оптимальный баланс между скоростью и точностью, расширяя возможности модели в различных областях применения.

Модель LocateAnything превосходит Qwen3-VL и Rex-Omni в понимании ссылочных выражений благодаря более точному сопоставлению сложных запросов, основанных на пространственных или атрибутивных признаках, с соответствующими областями изображения.

Визуальный поиск: масштабируемость и эффективность

Система LocateAnything демонстрирует высокую обобщающую способность благодаря обучению на обширных наборах данных, таких как SA-1B и Unsplash, что позволяет ей успешно работать с разнообразными визуальными сценариями. Для максимального использования ресурсов графического процессора и ускорения обработки применяется инновационный метод Stream Packing. Кроме того, разработанный механизм внимания ^[5] MagiAttention эффективно обрабатывает неоднородные маски внимания, повышая общую производительность модели. Этот подход позволяет LocateAnything достигать высокой точности и скорости поиска даже в сложных условиях, обеспечивая эффективную работу с большими объемами визуальной информации.

Локализация в LocateAnything осуществляется путем генерации последовательности блоков фиксированной длины, выровненных по границам, включающих семантические, ограничивающие, негативные и завершающие блоки для совместного определения предсказанных объектов или состояний завершения.

Визуальный интеллект: Новый горизонт возможностей

Новая система LocateAnything демонстрирует значительный прорыв в области визуального мышления ^[6], превосходя существующие модели, такие как Qwen3-VL, в задачах точного определения местоположения объектов и их обнаружения на изображениях. Эта разработка открывает новые перспективы для широкого спектра приложений, включая робототехнику, беспилотные автомобили и дополненную реальность, благодаря своей эффективности и масштабируемости. Исследователи планируют расширить возможности системы, обучая ее решению более сложных задач, требующих глубокого анализа и логических выводов, а также изучая потенциал обучения на основе нескольких типов данных, таких как изображения, текст и звук, для создания по-настоящему интеллектуальных систем.

Система обработки данных для мультитаргетированного определения объектов использует синтезированные Qwen3-VL запросы, основанные на ограничивающих рамках или непосредственно на изображениях, для предсказания точек Molmo и последующего получения ограничивающих рамок с помощью SAM 3 или Rex-Omni, с финальной верификацией Qwen3-VL для обеспечения точности.

Он размышляет о представленной работе, видя в ней очередное заклинание, призванное обуздать хаос визуальных данных. LocateAnything, с его параллельным декодированием ограничивающих рамок, – это попытка не столько понять изображение, сколько уговорить его раскрыть свои секреты. Как и любое заклинание, оно обещает скорость и точность, но истинная магия кроется в тонкой настройке гиперпараметров – в способе убедить модель, где заканчивается реальность и начинается иллюзия. Ведь, как говорил Джеффри Хинтон: «Нейронные сети учатся, находя закономерности, а не понимая причины». Это заклинание, вероятно, сработает… пока не столкнётся с первым производственным провалом, когда шепот хаоса вновь одержит верх.

Куда же дальше?

Представленный здесь “LocateAnything” – лишь ещё одно заклинание, призванное обуздать хаос визуального мира. Параллельное декодирование ограничивающих рамок – элегантный трюк, но он не решает фундаментальной проблемы: мир не дискретен, просто у нас нет памяти ^[7] для float. Попытки загнать непрерывность в рамки отдельных объектов – это всегда приближение, всегда потеря информации. Истина кроется в шуме, в неопределенности, а не в точных координатах.

Следующим шагом, вероятно, станет отказ от самой идеи “объекта”. Вместо того, чтобы искать границы, стоит научиться понимать отношения между визуальными элементами, их взаимное влияние. Не “что это?”, а “как это связано?”. Модели, способные улавливать контекст и динамику визуальной сцены, будут куда полезнее, чем те, что просто находят прямоугольники вокруг предметов.

И всё же, не стоит забывать ^[8]: любая модель – это лишь карта, а не сама территория. Чем сложнее карта, тем больше она отвлекает от реальности. Поиск смысла в визуальном мире – это не поиск корреляции, а попытка понять, что этот мир пытается нам сказать. И этот разговор всегда будет неполным, всегда будет загадочным.

Оригинал статьи: https://arxiv.org/pdf/2605.27365.pdf ^[9]

Автор: avetissian

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31034

URLs in this post:

[1] зрения: http://www.braintools.ru/article/6238

[2] восприятия: http://www.braintools.ru/article/7534

[3] ошибки: http://www.braintools.ru/article/4192

[4] обучению: http://www.braintools.ru/article/5125

[5] внимания: http://www.braintools.ru/article/7595

[6] мышления: http://www.braintools.ru/thinking

[7] памяти: http://www.braintools.ru/article/4140

[8] забывать: http://www.braintools.ru/article/333

[9] https://arxiv.org/pdf/2605.27365.pdf: https://arxiv.org/pdf/2605.27365.pdf

[10] Источник: https://habr.com/ru/articles/1041738/?utm_campaign=1041738&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.