- BrainTools - https://www.braintools.ru -
Искусственный интеллект [1] исчерпал доступные для обучения [2] данные, рассказал [3] директор по данным и руководитель отдела разработки данных Goldman Sachs Нима Рафаэль. По его словам, этот дефицит уже может оказывать влияние на то, как создаются новые системы ИИ.

В качестве примера Рафаэль привёл китайскую DeepSeek, упомянув гипотезу, что компания обучала свои решения на результатах уже существующих моделей, а не на совершенно новых данных.
«Думаю, самое интересное будет в том, как предыдущие модели будут формировать то, каким окажется следующее воплощение мира в этом отношении», — заявил Рафаэль.
С исчерпанием возможностей интернета разработчики обращаются к синтетическим данным — машинно-cгенерированному тексту, изображениям и коду. Подобный подход предлагает неограниченный ресурс, но это также чревато перегрузкой моделей низкокачественными результатами или созданием неэффективного ИИ.
Нехватка свежих данных не станет серьёзным ограничением отчасти из-за того, что компании располагают неиспользованными резервами информации, указывает Рафаэль. С точки зрения [4] потребительского рынка наблюдается взрывной рост объёма синтетических данных. Однако с точки зрения корпоративного сектора из этого ещё много чего можно выжать, пояснил руководитель Goldman Sachs.
Это означает, что реальным рубежом может быть не открытый интернет, а закрытые наборы данных, хранящиеся в корпорациях. Goldman и другие компании располагают информацией, которая при правильном использовании поможет сделать ИИ-инструменты гораздо более ценными.
В начале этого года соучредитель OpenAI Илья Суцкевер отметил [5], что все полезные данные из интернета уже использованы для обучения моделей. Он предупредил, что эпоха быстрого развития ИИ «безусловно закончится».
Рафаэль говорит, что препятствия для корпоративного сектора заключаются не только в поиске дополнительных данных, но и в обеспечении возможности использования этой информации. Задача состоит в понимании бизнес-контекста этих данных с дальнейшей возможностью нормализовать их таким образом, чтобы они были удобны для использования в коммерции.
Руководитель Goldman предположил, что сильная зависимость от синтетических данных поднимает более глубокий вопрос о траектории развития ИИ.
Автор: Travis_Macrif
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20245
URLs in this post:
[1] интеллект: http://www.braintools.ru/article/7605
[2] обучения: http://www.braintools.ru/article/5125
[3] рассказал: https://www.businessinsider.com/ai-training-data-shortage-slop-goldman-sachs-2025-10
[4] зрения: http://www.braintools.ru/article/6238
[5] отметил: https://www.businessinsider.com/ai-peak-data-google-deepmind-researchers-solution-test-time-compute-2025-1
[6] Источник: https://habr.com/ru/news/953142/?utm_source=habrahabr&utm_medium=rss&utm_campaign=953142
Нажмите здесь для печати.