
Apple представила масштабное обновление своей нейросетевой архитектуры — Apple Foundation Model. По сути, разработчики создали новые модели совместно с Google, переложив самые тяжелые облачные задачи на их инфраструктуру
Вся эта конструкция создавалась в первую очередь ради Siri. Голосовой ассистент наконец-то получил возможности, которые индустрия считает базовыми.
Главные обновления Siri:
-
Работа с контекстом. Ассистент теперь нормально удерживает нить разговора, понимает, что происходит на экране устройства, и связывает реплики между собой. Разжевывать каждый запрос заново больше не нужно.
-
Генерация изображений. Картинки теперь можно создавать прямо через голосовые или текстовые команды внутри интерфейса.
-
Поиск в сети. Если локальной базы не хватает, ассистент идет искать информацию в интернете в реальном времени.
Тяжелые запросы Apple теперь официально перенаправляет в облако Google, тогда как на самом устройстве крутятся более простые локальные задачи.
Архитектурный каталог семейства AFM 3
Локальные модели
AFM 3 Core (~3 млрд параметров). Плотная (dense) базовая модель нового поколения, оптимизированная под Apple silicon для работы на смартфоне или ноутбуке. В слепых тестах ее текстовые ответы пользователи выбирали в два раза чаще прошлогоднего аналога (45,6% предпочтений против 23,3%);
AFM 3 Core Advanced (20 млрд параметров). Флагманская локальная модель. Традиционные LLM такого веса требуют, чтобы все веса находились в оперативной памяти (DRAM), что сжигает ресурсы устройства. Инженеры Apple применили метод Instruction-Following Pruning (IFP): полная модель хранится в постоянной флеш-памяти (NAND). Поскольку гонять веса туда-сюда под каждый токен слишком медленно, модель выбирает нужных экспертов под весь запрос целиком и лишь периодически обновляет их в процессе генерации. В итоге активируется всего от 1 до 4 млрд параметров, что позволило уложиться в рамки для разных устройств.
Облачные модели
Все серверные решения работают под защитой сквозной приватности Private Cloud Compute (PCC), гарантирующей, что данные пользователей не сохраняются.
-
AFM 3 Cloud. Серверная мультимодальная модель, построенная на базе доработанной архитектуры Parallel-Track Mixture-of-Experts (PT-MoE). Фокус сделан на стабилизации обучения и качестве удержания контекста при длинных запросах;
-
ADM 3 Cloud (Image). Диффузионная модель для генерации графики, Genmoji и сложной обработки фото. Расширяется под конкретные задачи с помощью специализированных адаптеров (например, для функции Spatial Reframing в приложении «Фото»);
-
AFM 3 Cloud Pro. Самая мощная нейросеть в каталоге для сложных логических рассуждений, математики и работы автономных ИИ-агентов. Ее масштабы потребовали от Apple расширения инфраструктуры PCC: модель оптимизирована под GPU NVIDIA внутри инфраструктуры Google Cloud, но работает под строгим контролем протоколов безопасности Apple.
Что это дает помимо Siri
Помимо контекстного поиска и прочего, мультимодальность AFM 3 Core Advanced существенно улучшила системные фичи.
Например, стали качественнее экспрессивные голоса (Text-to-Speech). В тестах по шкале MOS новая модель генерации голоса получила оценку 4,15 (прирост на 0,28 по сравнению с текущим продакшеном). В сценариях разговорной речи оценка поднялась до 4,24 против 3,82 у старой системы.
Не отстает и повышение точности диктовки. Новая архитектура при распознавании речи обходит старый движок по всем метрикам форматирования (расстановка пунктуации, капитализация, обработка заиканий и пауз). Качество пунктуации пользователи оценили выше старого решения в 50,2% случаев.
Для сжатия моделей без потери качества Apple применила метод квантования при обучении (Quantization Aware Training), что позволило запустить их на коммерческих чипах компании с минимальным оверхедом.

Облачная инфраструктура для ваших проектов
Виртуальные машины в Москве, Санкт-Петербурге и Новосибирске с оплатой по потреблению.
Что с этим не так
С одной стороны, апдейт полезный, и пользоваться устройствами станет удобнее. С другой — Siri научилась понимать контекст, искать информацию в интернете и генерировать графику только сейчас. По-хорошему, все это она должна была уметь условно год назад, на самом старте интеграции нейросетей в смартфоны.
Apple просто закрыла очевидный долг перед пользователями, догнав по фичам конкурентов, которые давно умеют работать в таком режиме.
Автор: techno_mot


