- BrainTools - https://www.braintools.ru -

Apple представила [1] масштабное обновление своей нейросетевой архитектуры — Apple Foundation Model. По сути, разработчики создали новые модели совместно с Google, переложив самые тяжелые облачные задачи на их инфраструктуру
Вся эта конструкция создавалась в первую очередь ради Siri. Голосовой ассистент наконец-то получил возможности, которые индустрия считает базовыми.
Работа с контекстом. Ассистент теперь нормально удерживает нить разговора, понимает, что происходит на экране устройства, и связывает реплики между собой. Разжевывать каждый запрос заново больше не нужно.
Генерация изображений. Картинки теперь можно создавать прямо через голосовые или текстовые команды внутри интерфейса.
Поиск в сети. Если локальной базы не хватает, ассистент идет искать информацию в интернете в реальном времени.
Тяжелые запросы Apple теперь официально перенаправляет в облако Google, тогда как на самом устройстве крутятся более простые локальные задачи.
AFM 3 Core (~3 млрд параметров). Плотная (dense) базовая модель нового поколения, оптимизированная под Apple silicon для работы на смартфоне или ноутбуке. В слепых тестах ее текстовые ответы пользователи выбирали в два раза чаще прошлогоднего аналога (45,6% предпочтений против 23,3%);
AFM 3 Core Advanced (20 млрд параметров). Флагманская локальная модель. Традиционные LLM такого веса требуют, чтобы все веса находились в оперативной памяти [2] (DRAM), что сжигает ресурсы устройства. Инженеры Apple применили метод Instruction-Following Pruning (IFP): полная модель хранится в постоянной флеш-памяти (NAND). Поскольку гонять веса туда-сюда под каждый токен слишком медленно, модель выбирает нужных экспертов под весь запрос целиком и лишь периодически обновляет их в процессе генерации. В итоге активируется всего от 1 до 4 млрд параметров, что позволило уложиться в рамки для разных устройств.
Все серверные решения работают под защитой сквозной приватности Private Cloud Compute (PCC), гарантирующей, что данные пользователей не сохраняются.
AFM 3 Cloud. Серверная мультимодальная модель, построенная на базе доработанной архитектуры Parallel-Track Mixture-of-Experts (PT-MoE). Фокус сделан на стабилизации обучения [3] и качестве удержания контекста при длинных запросах;
ADM 3 Cloud (Image). Диффузионная модель для генерации графики, Genmoji и сложной обработки фото. Расширяется под конкретные задачи с помощью специализированных адаптеров (например, для функции Spatial Reframing в приложении «Фото»);
AFM 3 Cloud Pro. Самая мощная нейросеть в каталоге для сложных логических рассуждений, математики [4] и работы автономных ИИ-агентов. Ее масштабы потребовали от Apple расширения инфраструктуры PCC: модель оптимизирована под GPU NVIDIA внутри инфраструктуры Google Cloud, но работает под строгим контролем протоколов безопасности Apple.
Помимо контекстного поиска и прочего, мультимодальность AFM 3 Core Advanced существенно улучшила системные фичи.
Например, стали качественнее экспрессивные голоса (Text-to-Speech). В тестах по шкале MOS новая модель генерации голоса получила оценку 4,15 (прирост на 0,28 по сравнению с текущим продакшеном). В сценариях разговорной речи оценка поднялась до 4,24 против 3,82 у старой системы.
Не отстает и повышение точности диктовки. Новая архитектура при распознавании речи обходит старый движок по всем метрикам форматирования (расстановка пунктуации, капитализация, обработка заиканий и пауз). Качество пунктуации пользователи оценили выше старого решения в 50,2% случаев.
Для сжатия моделей без потери качества Apple применила метод квантования при обучении (Quantization Aware Training), что позволило запустить их на коммерческих чипах компании с минимальным оверхедом.

Облачная инфраструктура для ваших проектов
Виртуальные машины в Москве, Санкт-Петербурге и Новосибирске с оплатой по потреблению.
Подробнее → [5]
С одной стороны, апдейт полезный, и пользоваться устройствами станет удобнее. С другой — Siri научилась понимать контекст, искать информацию в интернете и генерировать графику только сейчас. По-хорошему, все это она должна была уметь условно год назад, на самом старте интеграции нейросетей в смартфоны.
Apple просто закрыла очевидный долг перед пользователями, догнав по фичам конкурентов, которые давно умеют работать в таком режиме.
Автор: techno_mot
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/31489
URLs in this post:
[1] представила: https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models
[2] памяти: http://www.braintools.ru/article/4140
[3] обучения: http://www.braintools.ru/article/5125
[4] математики: http://www.braintools.ru/article/7620
[5] Подробнее →: https://selectel.ru/services/cloud/servers/?utm_source=habr.com&utm_medium=referral&utm_campaign=cloud_news_applegemini_090626_banner_i001_ord
[6] Источник: https://habr.com/ru/companies/selectel/news/1045530/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1045530
Нажмите здесь для печати.