Goldman Sachs: у ИИ уже закончились данные для обучения

Искусственный интеллект ^[1] исчерпал доступные для обучения ^[2] данные, рассказал ^[3] директор по данным и руководитель отдела разработки данных Goldman Sachs Нима Рафаэль. По его словам, этот дефицит уже может оказывать влияние на то, как создаются новые системы ИИ.

В качестве примера Рафаэль привёл китайскую DeepSeek, упомянув гипотезу, что компания обучала свои решения на результатах уже существующих моделей, а не на совершенно новых данных.

«Думаю, самое интересное будет в том, как предыдущие модели будут формировать то, каким окажется следующее воплощение мира в этом отношении», — заявил Рафаэль.

С исчерпанием возможностей интернета разработчики обращаются к синтетическим данным — машинно-cгенерированному тексту, изображениям и коду. Подобный подход предлагает неограниченный ресурс, но это также чревато перегрузкой моделей низкокачественными результатами или созданием неэффективного ИИ.

Нехватка свежих данных не станет серьёзным ограничением отчасти из-за того, что компании располагают неиспользованными резервами информации, указывает Рафаэль. С точки зрения ^[4] потребительского рынка наблюдается взрывной рост объёма синтетических данных. Однако с точки зрения корпоративного сектора из этого ещё много чего можно выжать, пояснил руководитель Goldman Sachs.

Это означает, что реальным рубежом может быть не открытый интернет, а закрытые наборы данных, хранящиеся в корпорациях. Goldman и другие компании располагают информацией, которая при правильном использовании поможет сделать ИИ-инструменты гораздо более ценными.

В начале этого года соучредитель OpenAI Илья Суцкевер отметил ^[5], что все полезные данные из интернета уже использованы для обучения моделей. Он предупредил, что эпоха быстрого развития ИИ «безусловно закончится».

Рафаэль говорит, что препятствия для корпоративного сектора заключаются не только в поиске дополнительных данных, но и в обеспечении возможности использования этой информации. Задача состоит в понимании бизнес-контекста этих данных с дальнейшей возможностью нормализовать их таким образом, чтобы они были удобны для использования в коммерции.

Руководитель Goldman предположил, что сильная зависимость от синтетических данных поднимает более глубокий вопрос о траектории развития ИИ.

Автор: Travis_Macrif

Источник ^[6]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/20245

URLs in this post:

[1] интеллект: http://www.braintools.ru/article/7605

[2] обучения: http://www.braintools.ru/article/5125

[3] рассказал: https://www.businessinsider.com/ai-training-data-shortage-slop-goldman-sachs-2025-10

[4] зрения: http://www.braintools.ru/article/6238

[5] отметил: https://www.businessinsider.com/ai-peak-data-google-deepmind-researchers-solution-test-time-compute-2025-1

[6] Источник: https://habr.com/ru/news/953142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=953142

Нажмите здесь для печати.