GeoVista выводит геолокацию на уровень ИИ, практически сопоставимый с ведущими коммерческими моделями

Исследователи из Китая представили GeoVista – модель искусственного интеллекта ^[1] с открытым исходным кодом, которая находит изображения, сочетая визуальный анализ с поиском в интернете в режиме реального времени. Система стремится соответствовать показателям коммерческих лидеров, таких как Gemini 2.5 Flash.

Модель, разработанная Tencent и несколькими китайскими университетами, опирается на два основных инструмента. Функция масштабирования позволяет увеличить определенные области для детального изучения, а инструмент поиска извлекает до десяти релевантных источников с таких платформ, как Tripadvisor, Instagram, Facebook, Pinterest и Wikipedia. GeoVista автоматически решает, когда использовать каждый инструмент.

Поиск в реальном времени улучшает результаты

Команда называет интеграцию с веб-поиском ключевым преимуществом GeoVista по сравнению с существующими методами. В то время как такие модели, как Mini-o3 или ^[2]DeepEyes ^[3] от ByteDance, ориентированы на обработку изображений, GeoVista активно использует внешние данные. В статье не уточняется, какой поисковой сервис использует система.

GeoVista последовательно увеличивает участки изображения и опрашивает онлайн-источники, пока не определит точное местоположение

Команда создала GeoVista на основе Qwen2.5-VL-7B-Instruct, используя двухэтапный процесс. Сначала, в ходе контролируемого обучения ^[4], модель обучалась базовым рассуждениям и использованию инструментов на основе 2000 тщательно отобранных примеров. Коммерческие модели ИИ генерировали примеры вызовов и обоснований инструментов, которые команда объединяла в многоуровневые мыслительные процессы.

На втором этапе обучение с подкреплением ^[5] отточило эти навыки на 12 000 примерах. Специальная система вознаграждений делает акцент на географической точности: правильные ответы на уровне города приносят более высокие награды, чем ответы на уровне провинции или страны.

Технологии с открытым исходным кодом догоняют проприетарные технологии

На собственном наборе данных GeoBench, разработанном командой GeoVista, точность составила 92,64% на уровне страны, 79,60% на уровне провинции и 72,68% на уровне города. Модель лучше всего работает на панорамах (точность для города 79,49%) и стандартных фотографиях (72,27%), в то время как спутниковые снимки остаются самыми сложными – 44,92%.

GeoVista-7B превосходит другие модели с открытым исходным кодом на GeoBench и приближается по точности к лучшим фирменным моделям на уровне городов, особенно при работе с панорамными изображениями.

Тесты на абляцию подтвердили необходимость обеих фаз обучения. Без начального контролируемого обучения производительность резко падала, поскольку модель генерировала слишком короткие ответы и не использовала инструменты. Пропуск обучения с подкреплением приводил к аналогичным провалам. Многоуровневая система вознаграждений оказалась незаменимой для использования многоуровневых географических данных.

Новый бенчмарк отфильтровывает легкие цели

Вместе с моделью исследователи опубликовали GeoBench – набор данных, содержащий 1142 изображения высокого разрешения из 66 стран и 108 городов. В набор входят 512 стандартных фотографий, 512 панорам и 108 спутниковых снимков, все с разрешением не менее миллиона пикселей.

Оценка проверяет названия стран, провинций и городов, а затем автоматически геокодирует данные для сравнения с контрольными координатами.

Более строгая фильтрация отличает GeoBench от существующих наборов данных, таких как OpenStreetView-5M или GeoComp. Команда удалила нелокализируемые изображения, такие как крупные планы еды или типовые ландшафты, а также легко узнаваемые достопримечательности, утверждая, что интернет-изображения сильно различаются по степени простоты их локализации.

Делегируйте часть рутинных задач вместе с BotHub! ^[6] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[7] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[8]

Автор: MrRjxrby

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/22847

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] Mini-o3 или : https://mini-o3.github.io/

[3] DeepEyes: https://the-decoder.com/deepeyesv2-outperforms-bigger-rivals-by-favoring-tools-over-sheer-knowledge/

[4] обучения: http://www.braintools.ru/article/5125

[5] подкреплением: http://www.braintools.ru/article/5528

[6] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=GEOVISTA_BRINGS_GEOLOCATION_TO_AN_AI_LEVEL_THAT_IS_ALMOST_COMPARABLE_TO_LEADING_COMMERCIAL_MODELS

[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[8] Источник: https://the-decoder.com/geovista-brings-open-source-ai-geolocation-to-near-parity-with-top-commercial-models/

[9] Источник: https://habr.com/ru/companies/bothub/news/974150/?utm_source=habrahabr&utm_medium=rss&utm_campaign=974150

Нажмите здесь для печати.