- BrainTools - https://www.braintools.ru -

Исследователи из Китая представили GeoVista – модель искусственного интеллекта [1] с открытым исходным кодом, которая находит изображения, сочетая визуальный анализ с поиском в интернете в режиме реального времени. Система стремится соответствовать показателям коммерческих лидеров, таких как Gemini 2.5 Flash.
Модель, разработанная Tencent и несколькими китайскими университетами, опирается на два основных инструмента. Функция масштабирования позволяет увеличить определенные области для детального изучения, а инструмент поиска извлекает до десяти релевантных источников с таких платформ, как Tripadvisor, Instagram, Facebook, Pinterest и Wikipedia. GeoVista автоматически решает, когда использовать каждый инструмент.
Команда называет интеграцию с веб-поиском ключевым преимуществом GeoVista по сравнению с существующими методами. В то время как такие модели, как Mini-o3 или [2]DeepEyes [3] от ByteDance, ориентированы на обработку изображений, GeoVista активно использует внешние данные. В статье не уточняется, какой поисковой сервис использует система.
Команда создала GeoVista на основе Qwen2.5-VL-7B-Instruct, используя двухэтапный процесс. Сначала, в ходе контролируемого обучения [4], модель обучалась базовым рассуждениям и использованию инструментов на основе 2000 тщательно отобранных примеров. Коммерческие модели ИИ генерировали примеры вызовов и обоснований инструментов, которые команда объединяла в многоуровневые мыслительные процессы.
На втором этапе обучение с подкреплением [5] отточило эти навыки на 12 000 примерах. Специальная система вознаграждений делает акцент на географической точности: правильные ответы на уровне города приносят более высокие награды, чем ответы на уровне провинции или страны.
На собственном наборе данных GeoBench, разработанном командой GeoVista, точность составила 92,64% на уровне страны, 79,60% на уровне провинции и 72,68% на уровне города. Модель лучше всего работает на панорамах (точность для города 79,49%) и стандартных фотографиях (72,27%), в то время как спутниковые снимки остаются самыми сложными – 44,92%.
Тесты на абляцию подтвердили необходимость обеих фаз обучения. Без начального контролируемого обучения производительность резко падала, поскольку модель генерировала слишком короткие ответы и не использовала инструменты. Пропуск обучения с подкреплением приводил к аналогичным провалам. Многоуровневая система вознаграждений оказалась незаменимой для использования многоуровневых географических данных.
Вместе с моделью исследователи опубликовали GeoBench – набор данных, содержащий 1142 изображения высокого разрешения из 66 стран и 108 городов. В набор входят 512 стандартных фотографий, 512 панорам и 108 спутниковых снимков, все с разрешением не менее миллиона пикселей.
Более строгая фильтрация отличает GeoBench от существующих наборов данных, таких как OpenStreetView-5M или GeoComp. Команда удалила нелокализируемые изображения, такие как крупные планы еды или типовые ландшафты, а также легко узнаваемые достопримечательности, утверждая, что интернет-изображения сильно различаются по степени простоты их локализации.
Делегируйте часть рутинных задач вместе с BotHub! [6] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [7] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [8]
Автор: MrRjxrby
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22847
URLs in this post:
[1] интеллекта: http://www.braintools.ru/article/7605
[2] Mini-o3 или : https://mini-o3.github.io/
[3] DeepEyes: https://the-decoder.com/deepeyesv2-outperforms-bigger-rivals-by-favoring-tools-over-sheer-knowledge/
[4] обучения: http://www.braintools.ru/article/5125
[5] подкреплением: http://www.braintools.ru/article/5528
[6] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=GEOVISTA_BRINGS_GEOLOCATION_TO_AN_AI_LEVEL_THAT_IS_ALMOST_COMPARABLE_TO_LEADING_COMMERCIAL_MODELS
[7] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[8] Источник: https://the-decoder.com/geovista-brings-open-source-ai-geolocation-to-near-parity-with-top-commercial-models/
[9] Источник: https://habr.com/ru/companies/bothub/news/974150/?utm_source=habrahabr&utm_medium=rss&utm_campaign=974150
Нажмите здесь для печати.