- BrainTools - https://www.braintools.ru -

Часто полезные данные для обучения [1] ИИ — побочный продукт от действий пользователя в игре, навигаторе или фитнес-приложении. Пользователь делает то, ради чего пришел: ловит виртуальных шушпанчиков, катается на велосипеде, объезжает пробки, вводит капчу — а где-то фоново формируется датасет. Это уже много обсуждали в комментариях к истории [2] использования данных Pokémon Go для обучения пространственного ИИ (spatial AI).
В этом материале я расскажу о кейсе Pokémon Go и о том, как работает использование данных из приложений.
Как это работает [4]
Strava Metro [6]
Waze for Cities [7]
StarCraft II [8]
GTA V [9]
Компания Niantic, владелец Pokémon Go, годами строила AR-инфраструктуру вокруг визуального позиционирования и 3D-карт локаций, используя сканы и изображения, созданные пользователями с помощью смартфона. Сначала это выглядело как мобильный 3D-сканер под названием Scaniverse, но со временем Niantic превратила этот инструмент в полноценный сервис для сбора данных о физическом мире и их преобразования в пространственные датасеты. Поэтому Pokémon Go сразу создавалась как среда, в которой можно работать с реальным пространством через действия миллионов пользователей.
Позже компания начала использовать собранный массив для большой геопространственной модели (Large Geospatial Model) и пространственного ИИ — систем, которые должны понимать само пространство, ориентироваться в нем и соотносить конкретную точку с глобальной картой местности.
Когда стало ясно, что вся эта инфраструктура годится не только для AR-эффектов, но и для более общего понимания физического пространства, следующим шагом стало ее применение за пределами игр. Именно на этом этапе возникло партнерство Niantic и Coco Robotics. Технологии, изначально развиваемые для AR и игровых сценариев, начали использовать уже в роботах-доставщиках, то есть в системах, которым тоже нужно ориентироваться в реальном городском пространстве.
Сначала игровая механика мотивирует пользователя сканировать физический объект или пространство вокруг себя. Затем система получает многовидовые изображения и привязанные к положению в мире наблюдения. Дальше из этого собираются 3D-представления сцены, системы визуального позиционирования и пространственные представления среды. И уже на следующем шаге все это начинает работать: сначала на AR-эффекты, а затем и на навигацию воплощенных систем, где агенту нужно понимать реальный физический контекст.
Pokémon Go и вся экосистема Niantic ценны не потому, что у них просто много фото, а потому, что эти данные изначально ориентируются на задачи определения местоположения, сопоставления визуальных сцен и построения моделей мира.
Но примеров, когда на действиях пользователей собирали данные и обучали системы, на самом деле больше. Начнем с эпохи до ИИ, а потом обсудим и кейсы обучения нейросетевых моделей на пользовательских данных.
Канонический пример до появления ИИ — reCAPTCHA. В статье Science 2008 года авторы описали [10] схему двойного назначения CAPTCHA: она не только отличает человека от бота, но и распознаёт слова из оцифровываемых текстов, которые не смог прочитать OCR.
Авторы пишут [11], что OCR плохо справляется со старыми печатными материалами: в изданиях с выцветшими чернилами и пожелтевшими страницами OCR не распознаёт около 20% слов. При этом люди расшифровывают такой текст заметно лучше, но ручная транскрибация слишком дорогая для массовой оцифровки.
Сначала страницу прогоняли через две OCR-системы, затем результаты выравнивали и сравнивали между собой и со словарем. Если два OCR-движка читали слово по-разному или оно отсутствовало в словаре, его отмечали как сомнительное (suspicious). По данным авторов, около 96% таких подозрительных слов действительно распознано некорректно хотя бы одним OCR, а среди непомеченных таким образом 99,74% распознаны обоими OCR правильно.
Пользователю показывали контрольное слово, ответ на которое системе известен, и второе — проблемное, пришедшее из OCR-пайплайна. Если достаточное число людей сходилось на одном варианте, слово считалось распознанным. Авторы сообщали о точности более 99% и о сотнях миллионов распознанных слов.
На момент публикации, в 2008 году, reCAPTCHA работала более чем на 40 тысячах сайтов и помогла корректно распознать свыше 440 миллионов слов.
reCAPTCHA — ранний пример того, как побочный продукт пользовательского действия превращается в ценный датасет. Со временем тот же подход вышел далеко за пределы распознавания текста.
В случае Strava Metro источником данных стало уже не слово на скане, а реальное движение людей в городской среде. Strava прямо позиционирует Metro как инструмент для анализа [12] городской навигации. Она собирает, агрегирует и обезличивает пользовательские данные, чтобы городские планировщики и транспортные специалисты могли понимать, как люди в действительности передвигаются по городу.
Логистическим ИИ-системам карта дает общее понимание, как устроен город, а данные о траекториях показывают, как именно перемещаются люди, транспорт и роботы. Благодаря данным роботы-курьеры и системы навигации понимают реальную логику [14] движения, а не руководствуются только теорией на бумаге.
Но и у этого кейса есть нюансы. Исследование 2025 года о Strava Metro подчеркивает [15], что муниципалитеты не смогут использовать только эти данные и должны учитывать их ограничения: аудитория Strava неточно соответствует населению города, а следовательно, может быть репрезентативна не для всех групп.
Приложение Waze [17] используют не только обычные пользователи, но и городские власти, дорожные операторы и экстренные службы. Они получают доступ к данным о дорожной ситуации и могут сами передавать в систему информацию о перекрытиях, ремонтах, авариях, пробках и других событиях.
Проблема городской навигации обычно в том, что карта показывает базовую структуру населенного пункта: где проходят дороги, перекрестки, развязки, какие маршруты в принципе возможны. Но дорожная ситуация меняется слишком быстро, какие-то участки перестают быть доступными. Люди используют сервис Waze, чтобы быстрее доехать до места, так как платформа собирает актуальную информацию о дорожной обстановке в живом режиме. Эти данные потом могут быть полезны не только другим водителям и городским службам, но и системам автоматической навигации, например, роботам-доставщикам и другим ИИ-системам, работающим в физическом мире.
Если отвлечься от того, что это культовая компьютерная игра, то StarCraft II очень похожа [18] на реальные управленческие задачи. Здесь тоже нужно распределять ресурсы, принимать решения в условиях неполной информации, менять план по ходу дела и постоянно подстраиваться под ситуацию. Поэтому для исследователей важна не сама игра, а то, что в записях матчей сохраняются реальные цепочки человеческих решений в сложной среде.
StarCraft II тоже используют для ИИ: данные собрали из матчей с профессионалами. Взяли огромный массив реплеев — сохраненных партий, из которых можно разбирать настоящие стратегии, решения игроков и их поведение [19] в сложной постоянно меняющейся среде.
Примерно из 20 миллионов публично доступных игр авторы по техническим причинам ограничились версиями 4.8.2–4.9.2, это почти 5 миллионов игр. Затем они взяли только матчи игроков с MMR выше 3500, то есть верхние 22% игроков, и получили около 1,4 миллиона игр или 2,8 миллиона эпизодов, что соответствует более чем 30 годам игрового времени, 21 миллиарду внутренних шагов и 3,5 миллиарда обучающих наблюдений.
Изначально DeepMind [21] и Blizzard в проекте StarCraft II Learning Environment включили в систему набор реплеев рейтинговых матчей. Позже эта идея получила развитие в AlphaStar Unplugged, где DeepMind уже напрямую использовала [20] массив реплеев миллионов человеческих игр как основу для бенчмарк-задачи по обучению с подкреплением [22] на заранее собранных данных.
StarCraft II считается особенно сложной средой для обучения на готовых записях игр, потому что в каждый момент там может быть огромное количество возможных ходов. Игрок не видит всю карту сразу, ему нужно разведывать обстановку и постоянно догадываться, что сделает соперник. Поведение [23] противника все время меняет ситуацию. Поэтому даже большой массив реплеев показывает только малую часть того, что вообще может происходить в игре, и обучение становится сложнее.
В настолько сложной среде простое копирование человеческих действий оказывается неожиданно сильной отправной точкой. Иначе говоря, если у вас есть большой массив хороших человеческих реплеев, то модель, которая просто учится повторять [24] поведение игроков, уже может дать очень достойный результат. А более сложные алгоритмы вовсе не гарантируют улучшений.
Синтетические данные из GTA V по качеству тоже достаточно близки к реальным, что позволяет использовать их в обучающих сценариях не только как дополнение, но в некоторых случаях и как частичную замену реальных датасетов. Они удобны для задач восприятия [26] и навигации. В виртуальной среде можно легко менять погоду, освещение, плотность машин, сценарии движения и положение камер, а затем быстро собирать огромные массивы данных без долгих выездов и дорогой ручной разметки. Поэтому в исследованиях на базе GTA V и других искусственно созданных датасетов такой подход давно используют для обучения систем распознавания объектов, оценки глубины, сегментации сцены и предварительного обучения моделей для автономного транспорта.
GTA V в таком кейсе — управляемая виртуальная среда, которую можно применять как исследовательскую инфраструктуру для робототехники и навигации. Это способ удешевить и ускорить сбор данных в реальном мире, благодаря чему исследователи получают возможность генерировать большие и достаточно реалистичные наборы внутри игрового мира.
Исследователи показывают [27], как игровой мир можно использовать в качестве источника синтетических данных для робототехники и навигации — например, для задач SLAM, визуального распознавания местности и ориентирования в пространстве. Смысл в том, что вместо долгого, дорогого и сложного сбора данных в реальном городе можно получить большой массив изображений и сцен внутри детально проработанной виртуальной среды. Авторы подчеркивают, что такие синтетические данные во многих случаях оказываются достаточно близки к реальным и могут использоваться вместе с ними, а иногда даже частично их заменять.
Сейчас мы в начале этапа, когда ИИ выходит за пределы текста, картинок и экранных интерфейсов и все активнее начинает работать в физическом мире. А значит, резко растет ценность любых данных, которые помогают системам понимать пространство, изменения среды, маршруты, объекты и человеческие действия в реальной обстановке.
Пространственный ИИ, роботы-доставщики, сервисные роботы, смешанная реальность требуют данных, которые тесно связаны с реальным миром и с тем, как в нем приходится действовать. Все чаще ценность для ИИ создается не там, где кто-то специально «собирал датасет», а там, где удачно спроектировано поведение пользователя внутри цифровой среды.
Поэтому кейс с Pokémon Go — это не просто забавная история о том, как игроки «случайно помогли курьерам». На самом деле это гораздо более серьезный сюжет о том, как современные цифровые платформы превращают обычные действия пользователей в стратегически важный ресурс для машинного обучения.
Автор: darovska_online
Источник [28]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28889
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] к истории: https://www.popsci.com/technology/pokemon-go-delivery-robots-crowdsourcing/
[3] Почему кейс Pokémon Go — это не курьез: #Proof
[4] Как это работает: #work
[5] reCAPTCHA: обучение до ИИ-эпохи: #reCAPTCHA
[6] Strava Metro: #Strava
[7] Waze for Cities: #Waze
[8] StarCraft II: #StarCraft
[9] GTA V: #GTA
[10] Источник: https://www.science.org/cms/asset/b52ecb74-2427-453e-8c52-08c346965e6c/pap.pdf
[11] пишут: https://www.cs.kent.edu/~javed/class-P2P13F/papers-2012/PAPER2012-reCAPTCHA_Science.pdf
[12] анализа: https://datacollaboratives.org/cases/strava-metro.html
[13] Источник: https://metro.strava.com/case-studies/mapping-bicycling-ridership-across-sydney-metropolitan-strava-data?_gl=1*zhx68e*_up*MQ..*_ga*MTk1MDU1ODMyMy4xNzc1NzU3MDI5*_ga_CBSRDRSXB1*czE3NzU3NTcwMjgkbzEkZzAkdDE3NzU3NTcwMjgkajYwJGwwJGgw
[14] логику: http://www.braintools.ru/article/7640
[15] подчеркивает: https://www.sciencedirect.com/org/science/article/pii/S216099182500002X
[16] Источник: https://www.cities.google/waze-for-cities
[17] Waze: https://www.waze.com/wazeforcities
[18] похожа: https://storage.googleapis.com/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf
[19] поведение: http://www.braintools.ru/article/9372
[20] Источник: https://arxiv.org/pdf/2308.03526
[21] DeepMind: https://github.com/google-deepmind/pysc2
[22] подкреплением: http://www.braintools.ru/article/5528
[23] Поведение: http://www.braintools.ru/article/5593
[24] повторять: http://www.braintools.ru/article/4012
[25] Изображение: https://arxiv.org/html/2502.12303v1
[26] восприятия: http://www.braintools.ru/article/7534
[27] показывают: https://arxiv.org/abs/2502.12303
[28] Источник: https://habr.com/ru/companies/ru_mts/articles/1023688/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1023688
Нажмите здесь для печати.