- BrainTools - https://www.braintools.ru -

Apple + Google =? Купертиновцы представили Apple Foundation Model с интеграцией Gemini

Apple + Google=? Купертиновцы представили Apple Foundation Model с интеграцией Gemini - 1

Apple представила [1] масштабное обновление своей нейросетевой архитектуры — Apple Foundation Model. По сути, разработчики создали новые модели совместно с Google, переложив самые тяжелые облачные задачи на их инфраструктуру

Вся эта конструкция создавалась в первую очередь ради Siri. Голосовой ассистент наконец-то получил возможности, которые индустрия считает базовыми.

Главные обновления Siri:

  • Работа с контекстом. Ассистент теперь нормально удерживает нить разговора, понимает, что происходит на экране устройства, и связывает реплики между собой. Разжевывать каждый запрос заново больше не нужно.

  • Генерация изображений. Картинки теперь можно создавать прямо через голосовые или текстовые команды внутри интерфейса.

  • Поиск в сети. Если локальной базы не хватает, ассистент идет искать информацию в интернете в реальном времени.

Тяжелые запросы Apple теперь официально перенаправляет в облако Google, тогда как на самом устройстве крутятся более простые локальные задачи.

Архитектурный каталог семейства AFM 3

Локальные модели

AFM 3 Core (~3 млрд параметров). Плотная (dense) базовая модель нового поколения, оптимизированная под Apple silicon для работы на смартфоне или ноутбуке. В слепых тестах ее текстовые ответы пользователи выбирали в два раза чаще прошлогоднего аналога (45,6% предпочтений против 23,3%);

AFM 3 Core Advanced (20 млрд параметров). Флагманская локальная модель. Традиционные LLM такого веса требуют, чтобы все веса находились в оперативной памяти [2] (DRAM), что сжигает ресурсы устройства. Инженеры Apple применили метод Instruction-Following Pruning (IFP): полная модель хранится в постоянной флеш-памяти (NAND). Поскольку гонять веса туда-сюда под каждый токен слишком медленно, модель выбирает нужных экспертов под весь запрос целиком и лишь периодически обновляет их в процессе генерации. В итоге активируется всего от 1 до 4 млрд параметров, что позволило уложиться в рамки для разных устройств.

Облачные модели

Все серверные решения работают под защитой сквозной приватности Private Cloud Compute (PCC), гарантирующей, что данные пользователей не сохраняются.

  • AFM 3 Cloud. Серверная мультимодальная модель, построенная на базе доработанной архитектуры Parallel-Track Mixture-of-Experts (PT-MoE). Фокус сделан на стабилизации обучения [3] и качестве удержания контекста при длинных запросах;

  • ADM 3 Cloud (Image). Диффузионная модель для генерации графики, Genmoji и сложной обработки фото. Расширяется под конкретные задачи с помощью специализированных адаптеров (например, для функции Spatial Reframing в приложении «Фото»);

  • AFM 3 Cloud Pro. Самая мощная нейросеть в каталоге для сложных логических рассуждений, математики [4] и работы автономных ИИ-агентов. Ее масштабы потребовали от Apple расширения инфраструктуры PCC: модель оптимизирована под GPU NVIDIA внутри инфраструктуры Google Cloud, но работает под строгим контролем протоколов безопасности Apple.

Подавляющее большинство параметров модели — это «экспертные» веса, связанные с блоками обратной подачи (FFN) в архитектуре сложенного трансформатора. Источник.

Подавляющее большинство параметров модели — это «экспертные» веса, связанные с блоками обратной подачи (FFN) в архитектуре сложенного трансформатора. Источник [1].

Что это дает помимо Siri

Помимо контекстного поиска и прочего, мультимодальность AFM 3 Core Advanced существенно улучшила системные фичи.

Например, стали качественнее экспрессивные голоса (Text-to-Speech). В тестах по шкале MOS новая модель генерации голоса получила оценку 4,15 (прирост на 0,28 по сравнению с текущим продакшеном). В сценариях разговорной речи оценка поднялась до 4,24 против 3,82 у старой системы.

Не отстает и повышение точности диктовки. Новая архитектура при распознавании речи обходит старый движок по всем метрикам форматирования (расстановка пунктуации, капитализация, обработка заиканий и пауз). Качество пунктуации пользователи оценили выше старого решения в 50,2% случаев.

Для сжатия моделей без потери качества Apple применила метод квантования при обучении (Quantization Aware Training), что позволило запустить их на коммерческих чипах компании с минимальным оверхедом.

Apple + Google=? Купертиновцы представили Apple Foundation Model с интеграцией Gemini - 3

Облачная инфраструктура для ваших проектов

Виртуальные машины в Москве, Санкт-Петербурге и Новосибирске с оплатой по потреблению.

Подробнее → [5]

Что с этим не так

С одной стороны, апдейт полезный, и пользоваться устройствами станет удобнее. С другой — Siri научилась понимать контекст, искать информацию в интернете и генерировать графику только сейчас. По-хорошему, все это она должна была уметь условно год назад, на самом старте интеграции нейросетей в смартфоны.

Apple просто закрыла очевидный долг перед пользователями, догнав по фичам конкурентов, которые давно умеют работать в таком режиме.

Автор: techno_mot

Источник [6]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31489

URLs in this post:

[1] представила: https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models

[2] памяти: http://www.braintools.ru/article/4140

[3] обучения: http://www.braintools.ru/article/5125

[4] математики: http://www.braintools.ru/article/7620

[5] Подробнее →: https://selectel.ru/services/cloud/servers/?utm_source=habr.com&utm_medium=referral&utm_campaign=cloud_news_applegemini_090626_banner_i001_ord

[6] Источник: https://habr.com/ru/companies/selectel/news/1045530/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1045530

www.BrainTools.ru

Rambler's Top100