«Непостижимые волшебники»: как китайский Deepseek обгоняет Кремниевую долину в сфере AI

Китайский стартап в области искусственного интеллекта ^[1] Deepseek привлекает внимание ^[2] в Кремниевой долине, сравнявшись или превзойдя лидеров отрасли, таких как OpenAI o1, GPT-4o и Claude 3.5, — и все это при гораздо меньших затратах. Кто стоит за командой академических исследователей, которые перехитрили самые громкие имена в сфере технологий?

Deepseek опережает ускорители из Кремниевой долины: последняя модель компании, Deepseek-V3 ^[3] , работает лучше, чем ведущие коммерческие системы AI в тестах производительности, согласно независимым оценкам. Всего несколько месяцев назад их модель R1-Lite ^[4] почти сравнялась с o1-preview от OpenAI, ^[5] а финальная версия R1 ^[6] теперь работает на том же уровне.

«Непостижимые волшебники»: как китайский Deepseek обгоняет Кремниевую долину в сфере AI - 1

Deepseek, опираzcm на западные разработки с открытым исходным кодом, также предлагает свежие идеи. Быстрый прогресс компании привлек внимание технологических лидеров, включая генерального директора Meta* Марка Цукерберга ^[7] , который, как сообщается, обеспокоен их эффективностью и скоростью.

История начинается с Лян Вэньфэна ^[8] , родившегося в 1985 году в семье учителя начальной школы в Чжаньцзяне. После окончания Чжэцзянского университета ^[9] в 2006 году он изучал машинное обучение ^[10] в финансах во время обучения в магистратуре.

В отличие от таких гендиректоров технологических компаний, как Сэм Альтман или Илон Маск, Вэньфэн остается в стороне от внимания. Его профиль IEEE ^[11] показывает, что он по-прежнему глубоко вовлечен в исследования, опубликовав в 2024 году статьи об AI в производстве и новых материалах.

К 2015 году Вэньфэн и двое его одноклассников основали квантовый хедж-фонд High-Flyer ^[12] , который за шесть лет вырос до управления примерно 13 миллиардами евро, став одним из «четырех королей количественного инвестирования» Китая. Этот успех привел к созданию High-Flyer AI в 2019 году.

В 2021 году то, что казалось дорогим хобби, превратилось в нечто более значимое. Вэньфэн начал покупать тысячи графических процессоров Nvidia для того, что он называл побочным проектом AI.

Это хобби оказалось пророческим — High-Flyer приобрела более 10 000 графических процессоров Nvidia A100 ^[13] до того, как в США вступили в силу экспортные ограничения, и использовала их для усовершенствования своего суперкомпьютера Fire-Flyer, ориентированного на глубокое обучение, заложив основу для его конечного успеха.

Когда Deepseek официально запустился в мае 2023 года, он выглядел не так, как типичные стартапы. Офисы в Пекине и Ханчжоу больше похожи на университетский кампус для исследователей, чем на технологическую компанию.

Deepseek быстро выпустила свой первый продукт, Deepseek Coder ^[14] , за которым последовал более широкий Deepseek LLM ^[15] , а в течение года — значительно улучшенные Coder-V2 ^[14] и Deepseek-V2 ^[16] .

Над разработкой моделей работают от 100 ^[17] до 140 человек ^[18] из 200–300 сотрудников. Deepseek выделяется своей фокусировкой на фундаментальных исследованиях, а не на коммерческих приложениях. Компания полностью финансируется High-Flyer и обязуется предоставлять открытый исходный код своей работы — даже в своих стремлениях к искусственному интеллекту общего назначения (AGI), по словам исследователя Deepseek Дели Чена ^[19] .

«Непостижимые волшебники»: как китайский Deepseek обгоняет Кремниевую долину в сфере AI - 2

По словам Вэньфэна ^[20] , они нанимают в основном лучших выпускников университетов и аспирантов поздних стадий, которые публиковались в ведущих журналах, но имеют мало опыта ^[21] в отрасли. Хотя команда ставит исследования выше прибыли, Deepseek не уступает ByteDance в предложении самых высоких зарплат инженерам AI в Китае, сообщает Financial Times ^[22] .

Подход Deepseek отличается от большинства западных компаний, занимающихся AI. Их профиль X ^[23] просто гласит: «Раскройте тайну AI с любопытством. Ответьте на главный вопрос с долгосрочным подходом». Вы не найдете обычных корпоративных обещаний о безопасности или конкуренции.

Вэньфэн откровенно говорит ^[24] о том, что ставит исследования на первое место: «Если нам нужно найти коммерческую причину, мы, вероятно, не сможем этого сделать, потому что это невыгодно. С коммерческой точки зрения ^[25] фундаментальные исследования имеют очень низкий коэффициент окупаемости инвестиций, и когда первые инвесторы OpenAI вкладывали свои деньги, они не думали о прибыли. Они делали это, потому что хотели этого».

Сам Вэньфэн сосредоточен на более масштабной картине: изменении технологической культуры Китая. Он надеется, что Deepseek вдохновит больше «хардкорных инноваций» во всей экономике Китая. Джек Кларк ^[26], бывший руководитель политики OpenAI и соучредитель Anthropic, сказал, что Deepseek наняла группу «непостижимых волшебников».

Старший научный сотрудник Nvidia Джим Фан ^[27] видит в их ограниченных ресурсах преимущество: «Ограниченность ресурсов — прекрасная вещь. Инстинкт выживания в условиях жесткой конкуренции в сфере искусственного интеллекта — главный стимул ^[28] для прорывов».

«Превосходные модели OSS оказывают огромное давление на коммерческие, передовые компании LLM, заставляя их действовать быстрее», — пишет Фань.

Главный научный ^[29] сотрудник Meta* по искусственному интеллекту Ян Лекун назвал их модель V3 «превосходной» ^[30] и похвалил ^[31] их приверженность открытому исходному коду, заявив, что они следуют истинному духу открытых исследований, совершенствуя существующие технологии и делясь своим процессом.

Несмотря на впечатляющие показатели и похвалу отрасли, несколько вопросов омрачают рост Deepseek. Как и все китайские компании AI, модели Deepseek должны соответствовать государственной цензуре ^[32], а их отношения с правительством остаются неясными.

Также существует неопределенность относительно их методов обучения — их модели иногда идентифицируют себя как ChatGPT ^[33] , что позволяет предположить, что они могут обучаться на результатах западного AI.

Но хотя большинство западных компаний, занимающихся разработкой искусственного интеллекта, запрещают такую практику, они сами сталкиваются с исками о нарушении авторских прав в отношении обучающих данных ^[34] , поскольку они использовали данные, защищенные авторским правом, для разработки систем, которые могут составить конкуренцию тем, кто изначально создал эти данные.

Это поднимает вопросы о том, кто устанавливает правила разработки и обучения AI, и проливает свет на вопиющие двойные стандарты отрасли. В некотором смысле, кажется поэтическим правосудием, что Deepseek проигнорирует эти правила, чтобы наверстать упущенное.

Meta и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации

Источник ^[35]

Автор: dilnaz_04

Источник ^[36]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/11567

URLs in this post:

[1] интеллекта: http://www.braintools.ru/article/7605

[2] внимание: http://www.braintools.ru/article/7595

[3] Deepseek-V3: https://the-decoder.com/deepseek-v3-emerges-as-chinas-most-powerful-open-source-language-model-to-date/

[4] модель R1-Lite: https://the-decoder.com/first-open-source-alternative-to-openais-o1-comes-from-china/

[5] o1-preview от OpenAI,: https://the-decoder.com/openais-o1-preview-model-manipulates-game-files-to-force-a-win-against-stockfish-in-chess/

[6] финальная версия R1: https://the-decoder.com/deepseeks-latest-r1-zero-model-matches-openais-o1-in-reasoning-benchmarks/

[7] включая генерального директора Meta* Марка Цукерберга: https://the-decoder.com/deepseek-puts-pressure-on-meta-with-open-source-ai-models-at-a-fraction-of-the-cost/

[8] Лян Вэньфэна: https://en.m.wikipedia.org/wiki/Liang_Wenfeng

[9] Чжэцзянского университета: https://en.m.wikipedia.org/wiki/Zhejiang_University

[10] обучение: http://www.braintools.ru/article/5125

[11] Его профиль IEEE: https://ieeexplore.ieee.org/author/37898756500

[12] квантовый хедж-фонд High-Flyer: https://en.m.wikipedia.org/wiki/High-Flyer

[13] 10 000 графических процессоров Nvidia A100: https://www.wired.com/story/how-chinese-ai-startup-deepseek-made-a-model-that-rivals-openai/

[14] Deepseek Coder: https://the-decoder.com/deepseek-coder-v2-open-source-model-beats-gpt-4-and-claude-opus/

[15] Deepseek LLM: https://github.com/deepseek-ai/DeepSeek-LLM

[16] Deepseek-V2: https://the-decoder.com/deepseek-v2-is-a-chinese-flagship-open-source-mixture-of-experts-model/

[17] Над разработкой моделей работают от 100: https://x.com/zjasper666/status/1872497542136783360

[18] 140 человек: https://x.com/web3willbefree/status/1872732990247256197

[19] исследователя Deepseek Дели Чена: https://x.com/victor207755822/status/1882757279436718454

[20] По словам Вэньфэна: https://www.chinatalk.media/p/deepseek-ceo-interview-with-china

[21] опыта: http://www.braintools.ru/article/6952

[22] сообщает Financial Times: https://www.ft.com/content/747a7b11-dcba-4aa5-8d25-403f56216d7e

[23] профиль X: https://x.com/deepseek_ai

[24] Вэньфэн откровенно говорит: https://www.lesswrong.com/posts/kANyEjDDFWkhSKbcK/two-interviews-with-the-founder-of-deepseek

[25] зрения: http://www.braintools.ru/article/6238

[26] Джек Кларк: https://importai.substack.com/p/import-ai-372-gibberish-jailbreak

[27] Старший научный сотрудник Nvidia Джим Фан: https://x.com/DrJimFan/status/1872436577181614521

[28] стимул: http://www.braintools.ru/article/5596

[29] научный: http://www.braintools.ru/article/7634

[30] назвал их модель V3 «превосходной»: https://www.threads.net/@yannlecun/post/DEDukWJRpqt

[31] похвалил: https://www.threads.net/@yannlecun/post/DFNvN3euNEV

[32] все китайские компании AI, модели Deepseek должны соответствовать государственной цензуре : https://the-decoder.com/deepseeks-v3-is-the-latest-example-of-state-controlled-censorship-in-chinese-llms/

[33] их модели иногда идентифицируют себя как ChatGPT: https://www.reddit.com/r/singularity/comments/1hnh4qw/deepseekv3_often_calls_itself_chatgpt_if_you/

[34] они сами сталкиваются с исками о нарушении авторских прав в отношении обучающих данных: https://the-decoder.com/indian-publishers-join-wave-of-copyright-lawsuits-against-openai/

[35] Источник: https://the-decoder.com/inscrutable-wizards-how-chinese-ai-startup-deepseek-is-making-silicon-valley-look-slow/

[36] Источник: https://habr.com/ru/companies/bothub/news/876928/?utm_source=habrahabr&utm_medium=rss&utm_campaign=876928

Нажмите здесь для печати.