Apple проиграла ИИ-гонку? Или выиграла ту, о которой никто не говорит?

Все сейчас говорят об ИИ-гонке. Или об ИИ-пузыре и о том, когда он лопнет.

GPU от NVIDIA, дата-центры на миллиарды долларов, гигантские тренировочные прогоны. OpenAI, Google, Claude, Microsoft.

Весь мир технологий наблюдает, как ИИ-гиганты выясняют, кто построит модель покрупнее.

Об Apple говорят редко. А если говорят — в основном негативно. «Apple уже проиграла ИИ-гонку». Siri — посмешище. Никаких реальных ИИ-функций. Никакого реального рывка — только сделка с Google, чтобы Gemini в итоге питал Siri. Которая, конечно, снова отложена.

И всё? Серьёзно?

Apple стала неактуальной, потому что не строит кластеры из H100 и не тренирует базовые модели? Просто компания, выпускающая хорошие ноутбуки, классные планшеты и дорогие телефоны?

Думаю, мы упускаем кое-что важное. Apple не играет в ту же игру, что все остальные. Они не вливают миллиарды в ИИ, как Meta, Google, Microsoft или Amazon. Не в том же смысле.

Пока NVIDIA строила всё больше и больше — Apple строила всё меньше и меньше. И эта разница может на самом деле значить больше, чем кто-либо осознаёт.

Автобус

Начнём с фундаментальной архитектурной проблемы, касающейся чипов. И NVIDIA.

Дело не в сырой вычислительной мощности. Дело в передаче данных через память ^[1]. По сути — в шинах.

В традиционных компьютерных архитектурах — тех, на которых сегодня работает большинство ИИ-нагрузок, — у вас отдельные пулы памяти для CPU и GPU.

Каждый раз, когда вы запускаете запрос на инференс, данные должны физически перемещаться по шине из памяти CPU в память GPU и обратно.

Это трата энергии. И это потолок производительности, который не исправить дополнительными ядрами GPU.

Это как ездить на автобусе из здания в здание. Чтобы перенести свои вещи.

Apple решила это несколько лет назад собственными чипами. Унифицированная архитектура памяти. Разделение устранено полностью.

То есть они больше не ездят на автобусе из здания в здание. Всё — в одном здании.

Кстати, пока одни спорят, нужен ли облачный GPU или хватит локального чипа, — доступ к лучшим моделям уже есть прямо сейчас. BotHub собирает ведущие нейросети — GPT-4, Claude 3 и другие — в одном интерфейсе. Тестируйте, сравнивайте, решайте свои задачи — с любого устройства, хоть с того самого Mac на вашем столе.

Apple проиграла ИИ-гонку? Или выиграла ту, о которой никто не говорит? - 2

Для доступа не требуется VPN, можно использовать российскую карту.

По ссылке вы можете получить 300 000 бесплатных токенов ^[2] для первых задач и приступить к работе с нейросетями прямо сейчас!

Что на самом деле означает унифицированная память

Чипы серии M размещают CPU, GPU и Neural Engine на одном кристалле с общим доступом к памяти.

Никакого копирования данных между пулами памяти. Всё читает и пишет в одну и ту же быструю унифицированную память.

Это фундаментально меняет то, что возможно на одном устройстве.

Mac Studio с чипом серии M может локально запустить довольно крупную языковую модель на несколько миллиардов параметров.

Достаточный размер для множества практических задач.

Это молниеносно быстро? Нет. Облачный инференс на H100 безусловно быстрее.

Но… для большинства реальных сценариев использования — вам действительно нужна та скорость? И во сколько она вам обходится?

Neural Engine

Большинство людей на базовом уровне понимают, что делают CPU и GPU, но о Neural Engine говорят недостаточно. А именно он — ключ к тому, почему эти чипы так хорошо работают для ИИ.

CPU — универсал. Может делать всё, но обрабатывает задачи по одной. GPU запускает тысячи простых операций параллельно. Но у ИИ-инференса очень конкретная работа: умножение матриц. Миллионы операций «умножить и сложить», снова и снова.

Neural Engine создан специально для этого. Он не пытается быть гибким. Он оптимизирован для тензорных операций. Neural Engine в M4 выполняет 38 триллионов операций в секунду. M5 встраивает нейронные ускорители непосредственно в каждое ядро GPU.

Это другой подход.

Математика

GPU NVIDIA H100 для дата-центров потребляет более 700 ватт под нагрузкой. Mac Studio с M4 Ultra?

Значительно меньше.

И его можно поставить на любой стол. Где угодно.

Если вы запускаете непрерывный инференс — edge-развёртывание, автоматизация бэк-офиса, обработка в реальном времени — эта разница в энергопотреблении быстро накапливается за месяцы.

M4 может использовать 400 джоулей на одну задачу инференса. Облачный GPU — в 10 раз больше за ту же работу. За год непрерывной эксплуатации это очень большие деньги.

Так что Apple на самом деле выиграла?

Вернёмся к исходному тезису: Apple проигрывает ИИ-гонку.

Правда? Или они решают совершенно другую задачу?

Они не построили крупнейший дата-центр. Не создали конкурента H100. Зато они помогли решить проблему инференса для edge и локального развёртывания. Построили архитектуру, где память не становится узким местом, где нейронные нагрузки — приоритет первого класса, и где модель, которая обычно требует облачной инфраструктуры, может работать локально на оборудовании, которое у вас уже есть.

ИИ-индустрия постоянно твердит: чтобы быть серьёзным игроком, нужны облачные GPU, арендованные по часам.

Чипы Apple серии M говорят: это не всегда так. Для множества реальных, а не гипотетических сценариев — реально развёрнутых систем — локальный инференс на унифицированной архитектуре памяти имеет огромный смысл. И экономически, и технически.

Другая гонка, другой победитель

Apple Silicon не заменит каждую GPU-нагрузку, разумеется.

Обучение ^[3] крупных моделей по-прежнему требует массивных кластеров. Обслуживание миллионов пользователей одновременно — не этот сценарий. Дата-центры никуда не денутся.

Но для инференса Apple построила нечто иное.

Самая мощная ИИ-инфраструктура для вашего конкретного сценария, возможно, стоит у вас на столе. Это не проигрыш в гонке. Это участие в совершенно другой гонке.

Суть

Apple не обогнала NVIDIA. И не обогнала Google.

Они решили другую задачу: сделать ИИ-инференс практичным, эффективным и экономичным на стороне пользователя.

Унифицированная архитектура памяти может оказаться именно тем, что реально важно для развёртывания ИИ-систем, имеющих экономический смысл для людей и бизнеса.

Локальный ИИ. Просто и относительно недорого.

Apple не нужны собственные ИИ-модели или дата-центры для этого. Только их чипы и оборудование.

Автор: cognitronn

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27597

URLs in this post:

[1] память: http://www.braintools.ru/article/4140

[2] По ссылке вы можете получить 300 000 бесплатных токенов: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[3] Обучение: http://www.braintools.ru/article/5125

[4] Источник: https://habr.com/ru/companies/bothub/articles/1013532/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1013532

Нажмите здесь для печати.