Стена данных: почему ИИ упирается не в GPU, а в реальность. Big Data.. Big Data. GPGPU.. Big Data. GPGPU. gpu.. Big Data. GPGPU. gpu. synthetic data.. Big Data. GPGPU. gpu. synthetic data. данные.. Big Data. GPGPU. gpu. synthetic data. данные. искусственный интеллект.. Big Data. GPGPU. gpu. synthetic data. данные. искусственный интеллект. качество данных.. Big Data. GPGPU. gpu. synthetic data. данные. искусственный интеллект. качество данных. Машинное обучение.. Big Data. GPGPU. gpu. synthetic data. данные. искусственный интеллект. качество данных. Машинное обучение. машинное+обучение.. Big Data. GPGPU. gpu. synthetic data. данные. искусственный интеллект. качество данных. Машинное обучение. машинное+обучение. синтетические данные.. Big Data. GPGPU. gpu. synthetic data. данные. искусственный интеллект. качество данных. Машинное обучение. машинное+обучение. синтетические данные. стена данных.
Стена данных: почему ИИ упирается не в GPU, а в реальность - 1

Если вы когда-нибудь задумывались, почему огромные GPU-кластеры перестали быть главным драйвером прогресса в развитии ИИ, а контракты на данные подписываются за десятки миллионов долларов — эта статья для вас.

Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур Центра «Пуск» МФТИ в области Data Science, разработки и управления ИТ-продуктами. Магистр бизнес-информатики и соавтор курса «Экономика для технологических предпринимателей». Занимается проектами в телекоме, ИТ, ИИ, интересуется биоинформатикой и биотехнологиями, увлекается изучением квантовых систем. Принимал участие в международных ИТ-стартапах (закрытие венчурных раундов с крупнейшими технологическими гигантами). Считает себя технологическим предпринимателем (не инвестором), который вот-вот набьет все шишки и наконец-то сделает что-то полезное. Собственное портфолио проектов: инерциальная авионика, ИИ-системы управления компанией, интеллектуальные системы производства спортивной обуви.

Представьте, что вы строите ракету (Can i dream to be like Elon Musk?). В какой-то момент выясняется, что проблема не в двигателе (GPU), а в топливе (данных). Двигатели можно докупить, оптимизировать, распараллелить. А вот топливо, то есть высококачественные человеческие данные, внезапно оказывается не бесконечным. Это ощущение уже стало рыночной реальностью: контент начинают покупать и лицензировать как стратегический ресурс, а не парсить из интернета по-тихому. 

Можно подумать: «Не так все страшно!», но вот что думает крупный бизнес, основанный на Big Data:

● Илья Суцкевер (соучредитель OpenAI) публично предсказал плато развития ИИ из-за дефицита данных.

● Google заключил контракт с Reddit за $60 млн в год на лицензирование данных.

● Илон Маск закрыл API Twitter, чтобы данные использовал только Grok.

А еще FTC (Федеральная торговая комиссия) начала расследование практик лицензирования данных.

Иллюстрация сгенерирована нейросетью ChatGPT
Иллюстрация сгенерирована нейросетью ChatGPT

В этой статье разберем, что такое стена данных, почему она появилась именно сейчас и почему следующий виток развития ИИ все чаще смотрит не в сторону еще больших GPU-кластеров, а в сторону реальности — наблюдений окружающего мира, датчиков и физических процессов.

Что такое стена данных и почему она вообще возникла

Упрощенно, стена данных (data wall) — это момент, когда масштабирование моделей начинает упираться в дефицит качественных обучающих данных, особенно человеческого происхождения. К таким данным можно отнести:

● связные тексты (книги, статьи, диалоги);

● качественные инструкции и решения задач;

● код и инженерные артефакты (в хорошем смысле);

● экспертные материалы, где меньше шума и больше смысла.

Интернет большой, но полезный интернет — существенно меньше. Большая часть контента в сети повторяется, переписывается, содержит мусор, SEO и спам, а теперь еще и все чаще является… генерацией других моделей.

Иллюстрация сгенерирована нейросетью ChatGPT

Иллюстрация сгенерирована нейросетью ChatGPT

Получается интересный эффект: мы научили ИИ читать интернет, а интернет начал писать ИИ. Еще не смешно? Тогда вперед!

«Но ведь данных много, мы же живем в эпоху Big Data!»

Да, данных очень много. Но LLM (и большие, и малые) любят, когда не просто «много», а когда «много хорошего». Это примерно как питание: калорий вокруг полно, но если жить на чипсах, организм быстро объяснит разницу между «много» и «качественно».

С данными так же:

● низкокачественные данные добавляют шум и могут ухудшать поведение модели;

● высококачественные данные дают рост умения думать, точности, устойчивости, полезности.

Почему GPU не спасают в одиночку

Индустрия привыкла к простой магии: больше параметров + больше вычислений = лучше результат. Это работало впечатляюще долго, но у любого масштабирования есть ресурсная база. И если вычисления — это вопрос денег, энергии, инфраструктуры, то данные — вопрос другого толка:

● доступа (юридического и технического);

● права на использование;

● уникальности;

● качества и очистки;

● обновляемости (данные устаревают);

● и, внезапно, геополитики/суверенитета.

Доступ к лучшим массивам данных все чаще оказывается привязан к владельцам платформ, инфраструктур и государственным/корпоративным системам наблюдений.

Почему человеческий текст стал дефицитом

Причина 1. Интернет — не бесконечный учебник

Лучшая часть публичного текста уже давно «объедена»: книги, энциклопедии, популярные медиа, форумы, публичные git-репозитории и т. д. Дальше остается либо идти глубже в закрытые источники, либо платить за лицензии, либо пытаться «размножать» смысл синтетикой — а там свои риски.

Причина 2. Данные становятся закрытыми не из-за жадности, а из-за логики рынка

Если текст и контент действительно усиливают модель, они становятся активом, а активы, сюрприз-сюрприз:

● защищают,

● продают,

● лицензируют,

● ограничивают доступ.

Это не конец интернета, а взросление рынка ИИ. Примерно как когда музыка ушла из пиратских mp3 в стриминги: не потому что люди разлюбили музыку, а потому что появилась экономика доступа.

Причина 3. Много данных уже «заражено» синтетикой

Чем больше моделей в мире, тем больше их текста в сети. И тем выше риск, что мы начинаем учить новые модели на генерациях старых. Это и есть дорожка к деградации распределения — вплоть до model collapse. Если не держать якорь реальности, модели постепенно теряют способность к генерации редких, но важных событий и начинают вырождаться.

Иллюстрация сгенерирована нейросетью ChatGPT

Иллюстрация сгенерирована нейросетью ChatGPT

Что индустрия делает прямо сейчас (и почему это симптом стены данных)

У индустрии есть несколько типовых реакций:

Лицензирование. Договориться с правообладателями, платформами, медиа, базами знаний. Это легально, масштабируемо, но дорого и ограничено.

Синтетические данные. Генерировать инструкции, примеры, учебники, дистиллировать знания из сильных моделей в более дешевые. Это мощно, но есть пределы и риски (обсудим отдельно).

Сдвиг в сторону реальных данных мира. Там, где разметка приходит из будущего, а природа сама создает новые наблюдения: погода, космос, дистанционное зондирование, физика частиц, индустриальные сенсоры, медицина и т. д.

И вот третий пункт — наш главный поворот сюжета.

Иллюстрация сгенерирована нейросетью ChatGPT

Иллюстрация сгенерирована нейросетью ChatGPT

Почему реальность — новый источник данных (и почему это не замена интернет-текста)

Важно не перепутать: данные природы не заменят интернет-текст для «болталок» и широкого гуманитарного общения. Но они идеально подходят:

● для доменных foundation-моделей (погода/климат, космос, ДЗЗ, физика);

● мультимодальных world models (модели мира: время, пространство, сенсоры);

● инструментов и агентов, где язык — это интерфейс к моделям наблюдений (tool-use, RAG, адаптеры).

То есть LLM остается говорящей оболочкой, но мозгом предсказания реальности становятся модели наблюдений. 

Если упростить, то LLM — это харизматичный переводчик, а физический мир — это строгий преподаватель, который проверяет домашку каждый день. 

«Не верю!» — кричал Станиславский! А вы спросите Яндекс про цепи Маркова или посмотрите Youtube-канал Veritasium — вас ждет сюрприз.

Почему наблюдения мира ценны именно как антисинтетика

У наблюдений есть свойства, которые сложно имитировать синтетикой.

Они содержат хвосты распределения. Редкие события — то, что в среднем не должно происходить часто, но происходит. А иногда именно там спрятана новая физика, новые режимы, неожиданные комбинации факторов. Синтетика на длинной дистанции склонна усреднять и сглаживать редкости. Реальность — наоборот, периодически подкидывает сюжеты уровня «так не бывает, но вот опять».

Они самообновляемые. Погода завтра — метка для прогноза сегодня. Космические события происходят независимо от наших датасетов. Земля меняется каждый день, спутники это видят. Это почти бесконечная лента обновления.

Они проверяемы. С текстом можно спорить («автор ошибся», «источник сомнительный»). С наблюдениями спорить сложно: если датчик корректно откалиброван, то «так было». Можно спорить об интерпретации, но не о факте наблюдения.

Главный вывод статьи (и зачем это вам, дорогие читатели)

Стена данных — это не апокалипсис ИИ. Это смена эпохи:

● Раньше: кто больше скормит интернет-текста — тот и молодец.

● Сейчас: кто сумеет добыть, упаковать, легально использовать качественные данные — тот и создаст преимущество.

● Дальше: кто научит ИИ работать с реальностью, а не только с текстом, тот получит новые классы продуктов.

Это особенно интересно молодым инженерам и исследователям, потому что появляется пространство для новых профессий и проектов. Например:

● инженеры данных наблюдений (observation data engineers);

● архитекторы пайплайнов от сигнала к датасету;

● создатели бенчмарков реального мира;

● разработчики доменных foundation-моделей.

И да, это звучит как научная фантастика, но она уже начинает быть прикладной.

В следующей статье разберем синтетику: почему она реально работает, где ее границы и почему индустрии все равно нужен якорь — реальная часть данных.

Автор: mipt_digital

Источник

Rambler's Top100