- BrainTools - https://www.braintools.ru -

Если вы когда-нибудь задумывались, почему огромные GPU-кластеры перестали быть главным драйвером прогресса в развитии ИИ, а контракты на данные подписываются за десятки миллионов долларов — эта статья для вас.
Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур Центра «Пуск» МФТИ в области Data Science, разработки и управления ИТ-продуктами [1]. Магистр бизнес-информатики и соавтор курса «Экономика для технологических предпринимателей». Занимается проектами в телекоме, ИТ, ИИ, интересуется биоинформатикой и биотехнологиями, увлекается изучением квантовых систем. Принимал участие в международных ИТ-стартапах (закрытие венчурных раундов с крупнейшими технологическими гигантами). Считает себя технологическим предпринимателем (не инвестором), который вот-вот набьет все шишки и наконец-то сделает что-то полезное. Собственное портфолио проектов: инерциальная авионика, ИИ-системы управления компанией, интеллектуальные системы производства спортивной обуви.
Представьте, что вы строите ракету (Can i dream to be like Elon Musk?). В какой-то момент выясняется, что проблема не в двигателе (GPU), а в топливе (данных). Двигатели можно докупить, оптимизировать, распараллелить. А вот топливо, то есть высококачественные человеческие данные, внезапно оказывается не бесконечным. Это ощущение уже стало рыночной реальностью: контент начинают покупать и лицензировать как стратегический ресурс, а не парсить из интернета по-тихому.
Можно подумать: «Не так все страшно!», но вот что думает крупный бизнес, основанный на Big Data:
● Илья Суцкевер (соучредитель OpenAI) публично предсказал плато развития ИИ из-за дефицита данных.
● Google заключил контракт с Reddit за $60 млн в год на лицензирование данных.
● Илон Маск закрыл API Twitter, чтобы данные использовал только Grok.
А еще FTC (Федеральная торговая комиссия) начала расследование практик лицензирования данных.
В этой статье разберем, что такое стена данных, почему она появилась именно сейчас и почему следующий виток развития ИИ все чаще смотрит не в сторону еще больших GPU-кластеров, а в сторону реальности — наблюдений окружающего мира, датчиков и физических процессов.
Упрощенно, стена данных (data wall) — это момент, когда масштабирование моделей начинает упираться в дефицит качественных обучающих данных, особенно человеческого происхождения. К таким данным можно отнести:
● связные тексты (книги, статьи, диалоги);
● качественные инструкции и решения задач;
● код и инженерные артефакты (в хорошем смысле);
● экспертные материалы, где меньше шума и больше смысла.
Интернет большой, но полезный интернет — существенно меньше. Большая часть контента в сети повторяется, переписывается, содержит мусор, SEO и спам, а теперь еще и все чаще является… генерацией других моделей.
Получается интересный эффект: мы научили ИИ читать интернет, а интернет начал писать ИИ. Еще не смешно? Тогда вперед!
«Но ведь данных много, мы же живем в эпоху Big Data!»
Да, данных очень много. Но LLM (и большие, и малые) любят, когда не просто «много», а когда «много хорошего». Это примерно как питание: калорий вокруг полно, но если жить на чипсах, организм быстро объяснит разницу между «много» и «качественно».
С данными так же:
● низкокачественные данные добавляют шум и могут ухудшать поведение [2] модели;
● высококачественные данные дают рост умения думать, точности, устойчивости, полезности.
Индустрия привыкла к простой магии: больше параметров + больше вычислений = лучше результат. Это работало впечатляюще долго, но у любого масштабирования есть ресурсная база. И если вычисления — это вопрос денег, энергии, инфраструктуры, то данные — вопрос другого толка:
● доступа (юридического и технического);
● права на использование;
● уникальности;
● качества и очистки;
● обновляемости (данные устаревают);
● и, внезапно, геополитики/суверенитета.
Доступ к лучшим массивам данных все чаще оказывается привязан к владельцам платформ, инфраструктур и государственным/корпоративным системам наблюдений.
Причина 1. Интернет — не бесконечный учебник
Лучшая часть публичного текста уже давно «объедена»: книги, энциклопедии, популярные медиа, форумы, публичные git-репозитории и т. д. Дальше остается либо идти глубже в закрытые источники, либо платить за лицензии, либо пытаться «размножать» смысл синтетикой — а там свои риски.
Причина 2. Данные становятся закрытыми не из-за жадности, а из-за логики рынка
Если текст и контент действительно усиливают модель, они становятся активом, а активы, сюрприз-сюрприз:
● защищают,
● продают,
● лицензируют,
● ограничивают доступ.
Это не конец интернета, а взросление рынка ИИ. Примерно как когда музыка ушла из пиратских mp3 в стриминги: не потому что люди разлюбили музыку, а потому что появилась экономика доступа.
Причина 3. Много данных уже «заражено» синтетикой
Чем больше моделей в мире, тем больше их текста в сети. И тем выше риск, что мы начинаем учить новые модели на генерациях старых. Это и есть дорожка к деградации распределения — вплоть до model collapse. Если не держать якорь реальности, модели постепенно теряют способность к генерации редких, но важных событий и начинают вырождаться.
У индустрии есть несколько типовых реакций [3]:
● Лицензирование. Договориться с правообладателями, платформами, медиа, базами знаний. Это легально, масштабируемо, но дорого и ограничено.
● Синтетические данные. Генерировать инструкции, примеры, учебники, дистиллировать знания из сильных моделей в более дешевые. Это мощно, но есть пределы и риски (обсудим отдельно).
● Сдвиг в сторону реальных данных мира. Там, где разметка приходит из будущего, а природа сама создает новые наблюдения: погода, космос, дистанционное зондирование, физика частиц, индустриальные сенсоры, медицина и т. д.
И вот третий пункт — наш главный поворот сюжета.
Важно не перепутать: данные природы не заменят интернет-текст для «болталок» и широкого гуманитарного общения. Но они идеально подходят:
● для доменных foundation-моделей (погода/климат, космос, ДЗЗ, физика);
● мультимодальных world models (модели мира: время, пространство, сенсоры);
● инструментов и агентов, где язык — это интерфейс к моделям наблюдений (tool-use, RAG, адаптеры).
То есть LLM остается говорящей оболочкой, но мозгом [4] предсказания реальности становятся модели наблюдений.
Если упростить, то LLM — это харизматичный переводчик, а физический мир — это строгий преподаватель, который проверяет домашку каждый день.
«Не верю!» — кричал Станиславский! А вы спросите Яндекс про цепи Маркова или посмотрите Youtube-канал Veritasium — вас ждет сюрприз.
У наблюдений есть свойства, которые сложно имитировать синтетикой.
Они содержат хвосты распределения. Редкие события — то, что в среднем не должно происходить часто, но происходит. А иногда именно там спрятана новая физика, новые режимы, неожиданные комбинации факторов. Синтетика на длинной дистанции склонна усреднять и сглаживать редкости. Реальность — наоборот, периодически подкидывает сюжеты уровня «так не бывает, но вот опять».
Они самообновляемые. Погода завтра — метка для прогноза сегодня. Космические события происходят независимо от наших датасетов. Земля меняется каждый день, спутники это видят. Это почти бесконечная лента обновления.
Они проверяемы. С текстом можно спорить («автор ошибся», «источник сомнительный»). С наблюдениями спорить сложно: если датчик корректно откалиброван, то «так было». Можно спорить об интерпретации, но не о факте наблюдения.
Стена данных — это не апокалипсис ИИ. Это смена эпохи:
● Раньше: кто больше скормит интернет-текста — тот и молодец.
● Сейчас: кто сумеет добыть, упаковать, легально использовать качественные данные — тот и создаст преимущество.
● Дальше: кто научит ИИ работать с реальностью, а не только с текстом, тот получит новые классы продуктов.
Это особенно интересно молодым инженерам и исследователям, потому что появляется пространство для новых профессий и проектов. Например:
● инженеры данных наблюдений (observation data engineers);
● архитекторы пайплайнов от сигнала к датасету;
● создатели бенчмарков реального мира;
● разработчики доменных foundation-моделей.
И да, это звучит как научная фантастика, но она уже начинает быть прикладной.
В следующей статье разберем синтетику: почему она реально работает, где ее границы и почему индустрии все равно нужен якорь — реальная часть данных.
Автор: mipt_digital
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/27985
URLs in this post:
[1] Центра «Пуск» МФТИ в области Data Science, разработки и управления ИТ-продуктами: https://mipt.online/masters?utm_source=habr
[2] поведение: http://www.braintools.ru/article/9372
[3] реакций: http://www.braintools.ru/article/1549
[4] мозгом: http://www.braintools.ru/parts-of-the-brain
[5] Источник: https://habr.com/ru/articles/1016998/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1016998
Нажмите здесь для печати.