
2025-й заканчивается сдвигом в индустрии ИИ: фокус уходит от масштабного обучения к энергоэффективному инференсу, где универсальные GPU Nvidia уступают специализированным TPU и Trainium. Техногиганты вроде Google и AWS анонсировали чипы с преимуществами в 4–5 раз по цене и энергопотреблению, а сделки на миллиарды фиксируют новый расклад сил. Разберем, почему 2026-й станет годом экономического дарвинизма для железа и софта.
Nvidia: начало конца гегемонии
С массовым выходом рассуждающих моделей в этом году фокус индустрии стремительно смещается с обучения на инференс. А это совсем другая экономика чипов, где универсальность GPU от Nvidia перестает быть решающим фактором, уступая место энергоэффективности и стоимости владения.
Монополия размывается на глазах: техногиганты переходят от слов к делу и атакуют лидера одновременно с двух фронтов, технологического и коммерческого.
Технологический прорыв: Google и Amazon
Google TPU v7 «Ironwood». Новое поколение тензорных процессоров Google демонстрирует в 4,7 раза лучшую производительность на доллар и на 67% меньшее энергопотребление на токен по сравнению с Nvidia H100/H200. Ключевое преимущество Google — архитектура масштабирования. В компании используют оптические коммутаторы (OCS), которые позволяют объединять более 9000 чипов в единый суперкомпьютер без лишних задержек. В этом аспекте Nvidia с ее дорогим и сложным NVLink начинает проигрывать в гибкости построения гигантских кластеров.
Amazon Trainium3 и Trainium4. AWS наносит удар своим первым 3-нм AI-чипом Trainium3 UltraServers могут обеспечивать в 4,4 раза большую вычислительную производительность и в 4 раза лучшую энергоэффективность по сравнению с предыдущим поколением. EC2 UltraClusters 3.0 могут объединять до миллиона чипов Trainium (в 10 раз больше, чем раньше).
Пользователи, такие как Anthropic и стартап Decart (генерация видео в реальном времени), уже сообщают о снижении затрат на 50% и четырехкратном ускорении генерации.
Но самым интересным выглядит анонс Trainium4. Его киллер-фича — это совместимость с Nvidia NVLink Fusion. AWS строит хитрую стратегию: вместо прямой конфронтации создают гибридную экосистему, где эти чипы могут работать в связке с GPU Nvidia. Это снимает главный барьер для компаний, завязанных на CUDA, позволяя им плавно внедрять более дешевое железо AWS без переписывания кода.
Рыночный сдвиг: три сделки, меняющие правила игры
Пока инженеры мерятся терафлопсами, бизнес заключает контракты, которые фиксируют новый передел рынка:
-
Альянс Google и Anthropic. Компании заключили соглашение на десятки миллиардов долларов. Речь идет о развертывании до миллиона TPU для обеспечения инференса моделей Claude. К 2026 году под эти задачи будет выделено более 1 ГВт мощностей. Рынку прямо говорят: топовые модели могут и будут работать не на Nvidia.
-
OpenAI идет путем независимости. OpenAI и Broadcom объявили о стратегическом партнерстве по разработке кастомных AI-чипов. Цель амбициозна: инфраструктура на 10 ГВт, оптимизированная конкретно под нагрузки OpenAI. Первые чипы ожидаются к концу 2026 года, а полное развертывание — к 2029-му. Сэм Альтман повторяет путь Google и делает ставку на полный контроль стека, от транзистора до токена, чтобы избавиться от «налога Nvidia».
-
Qualcomm вступает в игру. Мобильный гигант выходит на рынок серверных вычислений. Анонсированы чипы AI200 (2026 год) и AI250 (2027 год). Первым крупным клиентом стал саудовский стартап Humain, который планирует развертывание мощностей на 200 МВт.
Больше альтернатив
Эра безальтернативных универсальных GPU подходит к концу. Специализированные чипы (ASIC) под инференс дают слишком большое преимущество в цене, чтобы их игнорировать.
По оценкам индустрии, строительство дата-центра на 1 ГВт сегодня обходится примерно в 50 млрд долларов. Из этой суммы львиная доля — около 35 млрд долларов — уходит на закупку чипов по текущим ценам Nvidia. Переход на специализированные решения (от Google, Amazon или Broadcom) позволяет радикально снизить эту цифру.
Маленькие модели побеждают большие
В следующем году стратегия «масштаб любой ценой» перестанет быть актуальной. Модели до 10B параметров (Phi-4 Mini, Ministral 3, Qwen 3 8B) теперь показывают результаты уровня GPT-4o (образца 2024 года). Возможно, в 2026 году мы увидим, как маленькие модели догоняют по своим возможностям флагманы 2025 года. Секрет их успеха — в качестве синтетических данных и выжимке рассуждений от продвинутых моделей-«учителей».
Что это дает пользователям:
-
Приватность: полное развертывание On-Premise без отправки чувствительных данных в облако.
-
Скорость: fine-tuning занимает часы на одном GPU вместо недель на кластере.
-
Агенты: сверхнизкая задержка (latency) критически важна для многошаговых цепочек рассуждений, где гигантские модели слишком медленны.
Китай и Open Source
Несмотря на санкции, к концу 2025 года Китай выпустил более сотни открытых LLM. Новые DeepSeek-V3.2 и Qwen 3 догнали многие проприетарные модели, а в задачах кодинга и математики даже опережают их. И это при стоимости инференса в несколько раз ниже.
Китай пошел по понятному пути: при ограниченном железе стал доводить до совершенства софт. Архитектура Mixture-of-Experts (MoE) активирует лишь малую часть параметров на токен (например, 22B из 235B), выдавая производительность флагманов США за копейки.
Зачем платить OpenAI, если Qwen 3 можно скачать бесплатно, а его «рассуждающая» версия (Thinking Mode) решает задачи часто не хуже платных аналогов?
Кибербезопасность: эра DarkOpenrouter
Атаки теперь совершаются не только вредоносным кодом, но и AI-агентами. Anthropic раскрыл кампанию, где хакеры использовали модифицированный Claude Code для создания автономных агентов-взломщиков. Агенты сами сканировали сети, выявляли уязвимости, переписывали код атаки при неудаче цикла за секунды вместо часов.
Классический фишинг продолжит эволюционировать и все больше полагаться на LLM, клонирование голоса, дипфейки. В 2026 ждем расцвет «Deception-as-a-Service», DarkOpenrouter с доступом к моделям, лишенным всяческих ограничений.
Как может выглядеть потенциальный DarkOpenRouter:
-
нелегальный или полулегальный шлюз к мощным моделям без safety-ограничений;
-
каталоги «боевых промптов» и готовых пайплайнов (DaaS — Deception-as-a-Service);
-
«агентные» ботнеты, где LLM-агент управляет целой сетью традиционных ботнет-узлов.
В 2026-м крупные корпорации и страховые компании начнут требовать не просто «политики ИБ», а аудита использования LLM и агентов: какие модели, с какими настройками, на каких задачах и как именно они контролируются и ограничены.
Неолуддизм и политика
Мы ждем объединения самых разных групп — алармистов и конспирологов, профсоюзов и экологов, которые все вместе будут противостоять развитию LLM, строительству дата-центров, внедрению AI-агентов. Возможно, в следующем году мы увидим первую попытку атаки подобной группы на дата-центр.
А после, конечно же, ждем фрагментацию законодательного ландшафта и разделения сфер влияния AI разных стран
-
США: Акцент на закрытых проприетарных моделях и конкуренции между крупными игроками OpenAI, Anthropic, Google.
-
Европа: жесткое законодательное регулирование и бюрократические барьеры приведут к все большему отставанию.
-
Китай: суверенная экосистема, изолированная от Запада. Борьба с западными провайдерами и захват рынка за счет сильных Open-Source-моделей.
В итоге корпорациям придется разворачивать разные модели для разных юрисдикций. Издержки при этом вырастут, фрагментация экосистем усилится, политика все больше будет влиять на выбор и использование моделей.
Наш прогноз на 2026-й
Экономический дарвинизм. Мы уже имеем на рынке ситуацию, в которой слишком много агентов, копайлотов и прочих AI-сервисов для слишком малого числа реальных задач. С высокой долей вероятности в 2026-м это перерастет в волну закрытий и M&A. Выживут те, у кого есть:
-
уникальные данные;
-
AI-агент, глубоко интегрированный в бизнес-процесс;
-
доступ к дешевой специализированной инфраструктуре (TPU/Trainium/ASIC).
В итоге «конец эпохи хайпа» — это не конец AI, а конец дешевых денег под абстрактный «GenAI».
Децентрализация железа. Монополия Nvidia размывается, рынок инференса дробится между Google TPU, AWS Trainium, Groq, Cerebras и другими, не говоря уже о том, что, вполне возможно, в 2026 году мы увидим китайские аналоги Google TPU и AWS Trainium.
Вертикальная интеграция стека. Побеждают те, кто контролирует путь от транзистора до токена: свои чипы, оптимизированные кластеры, свои reasoning-модели, свой агентный слой. OpenAI + Broadcom, Google TPU, AWS Trainium — все это ведет к снижению «налога Nvidia» и стоимости токена.
Гибридный интеллект. SLM в On-Premise контуре для быстрых задач + тяжелая модель в облаке для сложных рассуждений.
Первый крупный физический инцидент из-за ИИ-агента. Сбой энергосети, транспортный коллапс или авария на производстве. Это вызовет волну регулирования с требованием «человека в контуре» и потенциально приведет к запрету на публикацию Open-Source-моделей с числом параметров более 100–200 млрд.
В итоге победят не те, кто построит самую большую модель, а те, кто интегрирует дешевое специализированное решение на базе LLM в реальные процессы и экономику.
Автор: volinski


