Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты

Часто полезные данные для обучения ^[1] ИИ — побочный продукт от действий пользователя в игре, навигаторе или фитнес-приложении. Пользователь делает то, ради чего пришел: ловит виртуальных шушпанчиков, катается на велосипеде, объезжает пробки, вводит капчу — а где-то фоново формируется датасет. Это уже много обсуждали в комментариях к истории ^[2] использования данных Pokémon Go для обучения пространственного ИИ (spatial AI).

В этом материале я расскажу о кейсе Pokémon Go и о том, как работает использование данных из приложений.

Содержание:

Почему кейс Pokémon Go — это не курьез ^[3]
Как это работает ^[4]
reCAPTCHA: обучение до ИИ-эпохи ^[5]
Strava Metro ^[6]
Waze for Cities ^[7]
StarCraft II ^[8]
GTA V ^[9]

Почему кейс Pokémon Go — это не курьез

Компания Niantic, владелец Pokémon Go, годами строила AR-инфраструктуру вокруг визуального позиционирования и 3D-карт локаций, используя сканы и изображения, созданные пользователями с помощью смартфона. Сначала это выглядело как мобильный 3D-сканер под названием Scaniverse, но со временем Niantic превратила этот инструмент в полноценный сервис для сбора данных о физическом мире и их преобразования в пространственные датасеты. Поэтому Pokémon Go сразу создавалась как среда, в которой можно работать с реальным пространством через действия миллионов пользователей.

Позже компания начала использовать собранный массив для большой геопространственной модели (Large Geospatial Model) и пространственного ИИ — систем, которые должны понимать само пространство, ориентироваться в нем и соотносить конкретную точку с глобальной картой местности.

Система VPS использует четыре камеры для более точного анализа окружающей среды. Изображение: Coco Robotics — Система VPS использует четыре камеры для более точного анализа окружающей среды. *Изображение: Coco Robotics*

Когда стало ясно, что вся эта инфраструктура годится не только для AR-эффектов, но и для более общего понимания физического пространства, следующим шагом стало ее применение за пределами игр. Именно на этом этапе возникло партнерство Niantic и Coco Robotics. Технологии, изначально развиваемые для AR и игровых сценариев, начали использовать уже в роботах-доставщиках, то есть в системах, которым тоже нужно ориентироваться в реальном городском пространстве.

Как это работает

Сначала игровая механика мотивирует пользователя сканировать физический объект или пространство вокруг себя. Затем система получает многовидовые изображения и привязанные к положению в мире наблюдения. Дальше из этого собираются 3D-представления сцены, системы визуального позиционирования и пространственные представления среды. И уже на следующем шаге все это начинает работать: сначала на AR-эффекты, а затем и на навигацию воплощенных систем, где агенту нужно понимать реальный физический контекст.

Pokémon Go и вся экосистема Niantic ценны не потому, что у них просто много фото, а потому, что эти данные изначально ориентируются на задачи определения местоположения, сопоставления визуальных сцен и построения моделей мира.

Но примеров, когда на действиях пользователей собирали данные и обучали системы, на самом деле больше. Начнем с эпохи до ИИ, а потом обсудим и кейсы обучения нейросетевых моделей на пользовательских данных.

reCAPTCHA: обучение до ИИ-эпохи

Канонический пример до появления ИИ — reCAPTCHA. В статье Science 2008 года авторы описали ^[10] схему двойного назначения CAPTCHA: она не только отличает человека от бота, но и распознаёт слова из оцифровываемых текстов, которые не смог прочитать OCR.

Авторы пишут ^[11], что OCR плохо справляется со старыми печатными материалами: в изданиях с выцветшими чернилами и пожелтевшими страницами OCR не распознаёт около 20% слов. При этом люди расшифровывают такой текст заметно лучше, но ручная транскрибация слишком дорогая для массовой оцифровки.

Сначала страницу прогоняли через две OCR-системы, затем результаты выравнивали и сравнивали между собой и со словарем. Если два OCR-движка читали слово по-разному или оно отсутствовало в словаре, его отмечали как сомнительное (suspicious). По данным авторов, около 96% таких подозрительных слов действительно распознано некорректно хотя бы одним OCR, а среди непомеченных таким образом 99,74% распознаны обоими OCR правильно.

Пользователю показывали контрольное слово, ответ на которое системе известен, и второе — проблемное, пришедшее из OCR-пайплайна. Если достаточное число людей сходилось на одном варианте, слово считалось распознанным. Авторы сообщали о точности более 99% и о сотнях миллионов распознанных слов.

На момент публикации, в 2008 году, reCAPTCHA работала более чем на 40 тысячах сайтов и помогла корректно распознать свыше 440 миллионов слов.

reCAPTCHA — ранний пример того, как побочный продукт пользовательского действия превращается в ценный датасет. Со временем тот же подход вышел далеко за пределы распознавания текста.

Strava Metro

В случае Strava Metro источником данных стало уже не слово на скане, а реальное движение людей в городской среде. Strava прямо позиционирует Metro как инструмент для анализа ^[12] городской навигации. Она собирает, агрегирует и обезличивает пользовательские данные, чтобы городские планировщики и транспортные специалисты могли понимать, как люди в действительности передвигаются по городу.

Логистическим ИИ-системам карта дает общее понимание, как устроен город, а данные о траекториях показывают, как именно перемещаются люди, транспорт и роботы. Благодаря данным роботы-курьеры и системы навигации понимают реальную логику ^[14] движения, а не руководствуются только теорией на бумаге.

Пример визуализации оценочного объема велосипедного движения на отдельных участках дорог Сиднея (июнь 2021 г.). Источник — Пример визуализации оценочного объема велосипедного движения на отдельных участках дорог Сиднея (июнь 2021 г.). **Источник** ^[13]

Но и у этого кейса есть нюансы. Исследование 2025 года о Strava Metro подчеркивает ^[15], что муниципалитеты не смогут использовать только эти данные и должны учитывать их ограничения: аудитория Strava неточно соответствует населению города, а следовательно, может быть репрезентативна не для всех групп.

Waze for Cities

Приложение Waze ^[17] используют не только обычные пользователи, но и городские власти, дорожные операторы и экстренные службы. Они получают доступ к данным о дорожной ситуации и могут сами передавать в систему информацию о перекрытиях, ремонтах, авариях, пробках и других событиях.

Проблема городской навигации обычно в том, что карта показывает базовую структуру населенного пункта: где проходят дороги, перекрестки, развязки, какие маршруты в принципе возможны. Но дорожная ситуация меняется слишком быстро, какие-то участки перестают быть доступными. Люди используют сервис Waze, чтобы быстрее доехать до места, так как платформа собирает актуальную информацию о дорожной обстановке в живом режиме. Эти данные потом могут быть полезны не только другим водителям и городским службам, но и системам автоматической навигации, например, роботам-доставщикам и другим ИИ-системам, работающим в физическом мире.

StarCraft II

Если отвлечься от того, что это культовая компьютерная игра, то StarCraft II очень похожа ^[18] на реальные управленческие задачи. Здесь тоже нужно распределять ресурсы, принимать решения в условиях неполной информации, менять план по ходу дела и постоянно подстраиваться под ситуацию. Поэтому для исследователей важна не сама игра, а то, что в записях матчей сохраняются реальные цепочки человеческих решений в сложной среде.

StarCraft II тоже используют для ИИ: данные собрали из матчей с профессионалами. Взяли огромный массив реплеев — сохраненных партий, из которых можно разбирать настоящие стратегии, решения игроков и их поведение ^[19] в сложной постоянно меняющейся среде.

Примерно из 20 миллионов публично доступных игр авторы по техническим причинам ограничились версиями 4.8.2–4.9.2, это почти 5 миллионов игр. Затем они взяли только матчи игроков с MMR выше 3500, то есть верхние 22% игроков, и получили около 1,4 миллиона игр или 2,8 миллиона эпизодов, что соответствует более чем 30 годам игрового времени, 21 миллиарду внутренних шагов и 3,5 миллиарда обучающих наблюдений.

Изначально DeepMind ^[21] и Blizzard в проекте StarCraft II Learning Environment включили в систему набор реплеев рейтинговых матчей. Позже эта идея получила развитие в AlphaStar Unplugged, где DeepMind уже напрямую использовала ^[20] массив реплеев миллионов человеческих игр как основу для бенчмарк-задачи по обучению с подкреплением ^[22] на заранее собранных данных.

StarCraft II считается особенно сложной средой для обучения на готовых записях игр, потому что в каждый момент там может быть огромное количество возможных ходов. Игрок не видит всю карту сразу, ему нужно разведывать обстановку и постоянно догадываться, что сделает соперник. Поведение ^[23] противника все время меняет ситуацию. Поэтому даже большой массив реплеев показывает только малую часть того, что вообще может происходить в игре, и обучение становится сложнее.

В настолько сложной среде простое копирование человеческих действий оказывается неожиданно сильной отправной точкой. Иначе говоря, если у вас есть большой массив хороших человеческих реплеев, то модель, которая просто учится повторять ^[24] поведение игроков, уже может дать очень достойный результат. А более сложные алгоритмы вовсе не гарантируют улучшений.

GTA V

Синтетические данные из GTA V по качеству тоже достаточно близки к реальным, что позволяет использовать их в обучающих сценариях не только как дополнение, но в некоторых случаях и как частичную замену реальных датасетов. Они удобны для задач восприятия ^[26] и навигации. В виртуальной среде можно легко менять погоду, освещение, плотность машин, сценарии движения и положение камер, а затем быстро собирать огромные массивы данных без долгих выездов и дорогой ручной разметки. Поэтому в исследованиях на базе GTA V и других искусственно созданных датасетов такой подход давно используют для обучения систем распознавания объектов, оценки глубины, сегментации сцены и предварительного обучения моделей для автономного транспорта.

GTA V в таком кейсе — управляемая виртуальная среда, которую можно применять как исследовательскую инфраструктуру для робототехники и навигации. Это способ удешевить и ускорить сбор данных в реальном мире, благодаря чему исследователи получают возможность генерировать большие и достаточно реалистичные наборы внутри игрового мира.

Исследователи показывают ^[27], как игровой мир можно использовать в качестве источника синтетических данных для робототехники и навигации — например, для задач SLAM, визуального распознавания местности и ориентирования в пространстве. Смысл в том, что вместо долгого, дорогого и сложного сбора данных в реальном городе можно получить большой массив изображений и сцен внутри детально проработанной виртуальной среды. Авторы подчеркивают, что такие синтетические данные во многих случаях оказываются достаточно близки к реальным и могут использоваться вместе с ними, а иногда даже частично их заменять.

Сейчас мы в начале этапа, когда ИИ выходит за пределы текста, картинок и экранных интерфейсов и все активнее начинает работать в физическом мире. А значит, резко растет ценность любых данных, которые помогают системам понимать пространство, изменения среды, маршруты, объекты и человеческие действия в реальной обстановке.

Пространственный ИИ, роботы-доставщики, сервисные роботы, смешанная реальность требуют данных, которые тесно связаны с реальным миром и с тем, как в нем приходится действовать. Все чаще ценность для ИИ создается не там, где кто-то специально «собирал датасет», а там, где удачно спроектировано поведение пользователя внутри цифровой среды.

Поэтому кейс с Pokémon Go — это не просто забавная история о том, как игроки «случайно помогли курьерам». На самом деле это гораздо более серьезный сюжет о том, как современные цифровые платформы превращают обычные действия пользователей в стратегически важный ресурс для машинного обучения.

Автор: darovska_online

Источник ^[28]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28889

URLs in this post:

[1] обучения: http://www.braintools.ru/article/5125

[2] к истории: https://www.popsci.com/technology/pokemon-go-delivery-robots-crowdsourcing/

[3] Почему кейс Pokémon Go — это не курьез: #Proof

[4] Как это работает: #work

[5] reCAPTCHA: обучение до ИИ-эпохи: #reCAPTCHA

[6] Strava Metro: #Strava

[7] Waze for Cities: #Waze

[8] StarCraft II: #StarCraft

[9] GTA V: #GTA

[10] Источник: https://www.science.org/cms/asset/b52ecb74-2427-453e-8c52-08c346965e6c/pap.pdf

[11] пишут: https://www.cs.kent.edu/~javed/class-P2P13F/papers-2012/PAPER2012-reCAPTCHA_Science.pdf

[12] анализа: https://datacollaboratives.org/cases/strava-metro.html

[13] Источник: https://metro.strava.com/case-studies/mapping-bicycling-ridership-across-sydney-metropolitan-strava-data?_gl=1*zhx68e*_up*MQ..*_ga*MTk1MDU1ODMyMy4xNzc1NzU3MDI5*_ga_CBSRDRSXB1*czE3NzU3NTcwMjgkbzEkZzAkdDE3NzU3NTcwMjgkajYwJGwwJGgw

[14] логику: http://www.braintools.ru/article/7640

[15] подчеркивает: https://www.sciencedirect.com/org/science/article/pii/S216099182500002X

[16] Источник: https://www.cities.google/waze-for-cities

[17] Waze: https://www.waze.com/wazeforcities

[18] похожа: https://storage.googleapis.com/deepmind-media/research/alphastar/AlphaStar_unformatted.pdf

[19] поведение: http://www.braintools.ru/article/9372

[20] Источник: https://arxiv.org/pdf/2308.03526

[21] DeepMind: https://github.com/google-deepmind/pysc2

[22] подкреплением: http://www.braintools.ru/article/5528

[23] Поведение: http://www.braintools.ru/article/5593

[24] повторять: http://www.braintools.ru/article/4012

[25] Изображение: https://arxiv.org/html/2502.12303v1

[26] восприятия: http://www.braintools.ru/article/7534

[27] показывают: https://arxiv.org/abs/2502.12303

[28] Источник: https://habr.com/ru/companies/ru_mts/articles/1023688/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1023688

Нажмите здесь для печати.