- BrainTools - https://www.braintools.ru -

2025-й заканчивается сдвигом в индустрии ИИ: фокус уходит от масштабного обучения [1] к энергоэффективному инференсу, где универсальные GPU Nvidia уступают специализированным TPU и Trainium. Техногиганты вроде Google и AWS анонсировали чипы с преимуществами в 4–5 раз по цене и энергопотреблению, а сделки на миллиарды фиксируют новый расклад сил. Разберем, почему 2026-й станет годом экономического дарвинизма для железа и софта.
С массовым выходом рассуждающих моделей в этом году фокус индустрии стремительно смещается с обучения на инференс. А это совсем другая экономика чипов, где универсальность GPU от Nvidia перестает быть решающим фактором, уступая место энергоэффективности и стоимости владения.
Монополия размывается на глазах: техногиганты переходят от слов к делу и атакуют лидера одновременно с двух фронтов, технологического и коммерческого.
Google TPU v7 «Ironwood». Новое поколение тензорных процессоров Google демонстрирует в 4,7 раза лучшую производительность на доллар и на 67% меньшее энергопотребление на токен по сравнению с Nvidia H100/H200. Ключевое преимущество Google — архитектура масштабирования. В компании используют оптические коммутаторы (OCS), которые позволяют объединять более 9000 чипов в единый суперкомпьютер без лишних задержек. В этом аспекте Nvidia с ее дорогим и сложным NVLink начинает проигрывать в гибкости построения гигантских кластеров.
Amazon Trainium3 и Trainium4. AWS наносит удар своим первым 3-нм AI-чипом Trainium3 UltraServers могут обеспечивать в 4,4 раза большую вычислительную производительность и в 4 раза лучшую энергоэффективность по сравнению с предыдущим поколением. EC2 UltraClusters 3.0 могут объединять до миллиона чипов Trainium (в 10 раз больше, чем раньше).
Пользователи, такие как Anthropic и стартап Decart (генерация видео в реальном времени), уже сообщают [2]о снижении затрат на 50% и четырехкратном ускорении генерации.
Но самым интересным выглядит анонс Trainium4. Его киллер-фича — это совместимость с Nvidia NVLink Fusion. AWS строит хитрую стратегию: вместо прямой конфронтации создают гибридную экосистему, где эти чипы могут работать в связке с GPU Nvidia. Это снимает главный барьер для компаний, завязанных на CUDA, позволяя им плавно внедрять более дешевое железо AWS без переписывания кода.
Пока инженеры мерятся терафлопсами, бизнес заключает контракты, которые фиксируют новый передел рынка:
Альянс Google и Anthropic. Компании заключили соглашение [3] на десятки миллиардов долларов. Речь идет о развертывании до миллиона TPU для обеспечения инференса моделей Claude. К 2026 году под эти задачи будет выделено более 1 ГВт мощностей. Рынку прямо говорят: топовые модели могут и будут работать не на Nvidia.
OpenAI идет путем независимости. OpenAI и Broadcom объявили о стратегическом партнерстве [4] по разработке кастомных AI-чипов. Цель амбициозна: инфраструктура на 10 ГВт, оптимизированная конкретно под нагрузки OpenAI. Первые чипы ожидаются к концу 2026 года, а полное развертывание — к 2029-му. Сэм Альтман повторяет путь Google и делает ставку на полный контроль стека, от транзистора до токена, чтобы избавиться от «налога Nvidia».
Qualcomm вступает в игру. Мобильный гигант выходит на рынок серверных вычислений. Анонсированы чипы [5] AI200 (2026 год) и AI250 (2027 год). Первым крупным клиентом стал саудовский стартап Humain, который планирует развертывание мощностей на 200 МВт.
Эра безальтернативных универсальных GPU подходит к концу. Специализированные чипы (ASIC) под инференс дают слишком большое преимущество в цене, чтобы их игнорировать.
По оценкам индустрии, строительство дата-центра на 1 ГВт сегодня обходится примерно в 50 млрд долларов. Из этой суммы львиная доля — около 35 млрд долларов — уходит на закупку чипов по текущим ценам Nvidia. Переход на специализированные решения (от Google, Amazon или Broadcom) позволяет радикально снизить эту цифру.
В следующем году стратегия «масштаб любой ценой» перестанет быть актуальной. Модели до 10B параметров (Phi-4 Mini, Ministral 3, Qwen 3 8B) теперь показывают результаты уровня GPT-4o (образца 2024 года). Возможно, в 2026 году мы увидим, как маленькие модели догоняют по своим возможностям флагманы 2025 года. Секрет их успеха — в качестве синтетических данных и выжимке рассуждений от продвинутых моделей-«учителей».
Что это дает пользователям:
Приватность: полное развертывание On-Premise без отправки чувствительных данных в облако.
Скорость: fine-tuning занимает часы на одном GPU вместо недель на кластере.
Агенты: сверхнизкая задержка (latency) критически важна для многошаговых цепочек рассуждений, где гигантские модели слишком медленны.
Несмотря на санкции, к концу 2025 года Китай выпустил более сотни открытых LLM. Новые DeepSeek-V3.2 и Qwen 3 догнали многие проприетарные модели, а в задачах кодинга и математики [6] даже опережают их. И это при стоимости инференса в несколько раз ниже.
Китай пошел по понятному пути: при ограниченном железе стал доводить до совершенства софт. Архитектура Mixture-of-Experts (MoE) активирует лишь малую часть параметров на токен (например, 22B из 235B), выдавая производительность флагманов США за копейки.
Зачем платить OpenAI, если Qwen 3 можно скачать бесплатно, а его «рассуждающая» версия (Thinking Mode) решает задачи часто не хуже платных аналогов?
Атаки теперь совершаются не только вредоносным кодом, но и AI-агентами. Anthropic раскрыл кампанию, где хакеры использовали модифицированный Claude Code для создания автономных агентов-взломщиков. Агенты сами сканировали сети, выявляли уязвимости, переписывали код атаки при неудаче цикла за секунды вместо часов.
Классический фишинг продолжит эволюционировать и все больше полагаться на LLM, клонирование голоса, дипфейки. В 2026 ждем расцвет «Deception-as-a-Service», DarkOpenrouter с доступом к моделям, лишенным всяческих ограничений.
Как может выглядеть потенциальный DarkOpenRouter:
нелегальный или полулегальный шлюз к мощным моделям без safety-ограничений;
каталоги «боевых промптов» и готовых пайплайнов (DaaS — Deception-as-a-Service);
«агентные» ботнеты, где LLM-агент управляет целой сетью традиционных ботнет-узлов.
В 2026-м крупные корпорации и страховые компании начнут требовать не просто «политики ИБ», а аудита использования LLM и агентов: какие модели, с какими настройками, на каких задачах и как именно они контролируются и ограничены.
Мы ждем объединения самых разных групп — алармистов и конспирологов, профсоюзов и экологов, которые все вместе будут противостоять развитию LLM, строительству дата-центров, внедрению AI-агентов. Возможно, в следующем году мы увидим первую попытку атаки подобной группы на дата-центр.
А после, конечно же, ждем фрагментацию законодательного ландшафта и разделения сфер влияния AI разных стран
США: Акцент на закрытых проприетарных моделях и конкуренции между крупными игроками OpenAI, Anthropic, Google.
Европа: жесткое законодательное регулирование и бюрократические барьеры приведут к все большему отставанию.
Китай: суверенная экосистема, изолированная от Запада. Борьба с западными провайдерами и захват рынка за счет сильных Open-Source-моделей.
В итоге корпорациям придется разворачивать разные модели для разных юрисдикций. Издержки при этом вырастут, фрагментация экосистем усилится, политика все больше будет влиять на выбор и использование моделей.
Экономический дарвинизм. Мы уже имеем на рынке ситуацию, в которой слишком много агентов, копайлотов и прочих AI-сервисов для слишком малого числа реальных задач. С высокой долей вероятности в 2026-м это перерастет в волну закрытий и M&A. Выживут те, у кого есть:
уникальные данные;
AI-агент, глубоко интегрированный в бизнес-процесс;
доступ к дешевой специализированной инфраструктуре (TPU/Trainium/ASIC).
В итоге «конец эпохи хайпа» — это не конец AI, а конец дешевых денег под абстрактный «GenAI».
Децентрализация железа. Монополия Nvidia размывается, рынок инференса дробится между Google TPU, AWS Trainium, Groq, Cerebras и другими, не говоря уже о том, что, вполне возможно, в 2026 году мы увидим китайские аналоги Google TPU и AWS Trainium.
Вертикальная интеграция стека. Побеждают те, кто контролирует путь от транзистора до токена: свои чипы, оптимизированные кластеры, свои reasoning-модели, свой агентный слой. OpenAI + Broadcom, Google TPU, AWS Trainium — все это ведет к снижению «налога Nvidia» и стоимости токена.
Гибридный интеллект [7]. SLM в On-Premise контуре для быстрых задач + тяжелая модель в облаке для сложных рассуждений.
Первый крупный физический инцидент из-за ИИ-агента. Сбой энергосети, транспортный коллапс или авария на производстве. Это вызовет волну регулирования с требованием «человека в контуре» и потенциально приведет к запрету на публикацию Open-Source-моделей с числом параметров более 100–200 млрд.
В итоге победят не те, кто построит самую большую модель, а те, кто интегрирует дешевое специализированное решение на базе LLM в реальные процессы и экономику.
Автор: volinski
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/22951
URLs in this post:
[1] обучения: http://www.braintools.ru/article/5125
[2] сообщают : https://analyticsindiamag.com/ai-news-updates/aws-launches-trainium3-ultraservers-gives-a-peek-into-trainium4/
[3] заключили соглашение: https://www.googlecloudpresscorner.com/2025-10-23-Anthropic-to-Expand-Use-of-Google-Cloud-TPUs-and-Services
[4] объявили о стратегическом партнерстве: https://openai.com/index/openai-and-broadcom-announce-strategic-collaboration/
[5] Анонсированы чипы: https://www.cnbc.com/2025/10/27/qualcomm-ai200-ai250-ai-chips-nvidia-amd.html
[6] математики: http://www.braintools.ru/article/7620
[7] интеллект: http://www.braintools.ru/article/7605
[8] Источник: https://habr.com/ru/companies/vktech/articles/974790/?utm_source=habrahabr&utm_medium=rss&utm_campaign=974790
Нажмите здесь для печати.