Apple + Google =? Купертиновцы представили Apple Foundation Model с интеграцией Gemini. apple.. apple. apple foundation model.. apple. apple foundation model. gemini.. apple. apple foundation model. gemini. IT-инфраструктура.. apple. apple foundation model. gemini. IT-инфраструктура. Private Cloud Compute.. apple. apple foundation model. gemini. IT-инфраструктура. Private Cloud Compute. selectel.. apple. apple foundation model. gemini. IT-инфраструктура. Private Cloud Compute. selectel. Блог компании Selectel.. apple. apple foundation model. gemini. IT-инфраструктура. Private Cloud Compute. selectel. Блог компании Selectel. искусственный интеллект.. apple. apple foundation model. gemini. IT-инфраструктура. Private Cloud Compute. selectel. Блог компании Selectel. искусственный интеллект. Исследования и прогнозы в IT.. apple. apple foundation model. gemini. IT-инфраструктура. Private Cloud Compute. selectel. Блог компании Selectel. искусственный интеллект. Исследования и прогнозы в IT. Машинное обучение.. apple. apple foundation model. gemini. IT-инфраструктура. Private Cloud Compute. selectel. Блог компании Selectel. искусственный интеллект. Исследования и прогнозы в IT. Машинное обучение. нейросети.
Apple + Google=? Купертиновцы представили Apple Foundation Model с интеграцией Gemini - 1

Apple представила масштабное обновление своей нейросетевой архитектуры — Apple Foundation Model. По сути, разработчики создали новые модели совместно с Google, переложив самые тяжелые облачные задачи на их инфраструктуру

Вся эта конструкция создавалась в первую очередь ради Siri. Голосовой ассистент наконец-то получил возможности, которые индустрия считает базовыми.

Главные обновления Siri:

  • Работа с контекстом. Ассистент теперь нормально удерживает нить разговора, понимает, что происходит на экране устройства, и связывает реплики между собой. Разжевывать каждый запрос заново больше не нужно.

  • Генерация изображений. Картинки теперь можно создавать прямо через голосовые или текстовые команды внутри интерфейса.

  • Поиск в сети. Если локальной базы не хватает, ассистент идет искать информацию в интернете в реальном времени.

Тяжелые запросы Apple теперь официально перенаправляет в облако Google, тогда как на самом устройстве крутятся более простые локальные задачи.

Архитектурный каталог семейства AFM 3

Локальные модели

AFM 3 Core (~3 млрд параметров). Плотная (dense) базовая модель нового поколения, оптимизированная под Apple silicon для работы на смартфоне или ноутбуке. В слепых тестах ее текстовые ответы пользователи выбирали в два раза чаще прошлогоднего аналога (45,6% предпочтений против 23,3%);

AFM 3 Core Advanced (20 млрд параметров). Флагманская локальная модель. Традиционные LLM такого веса требуют, чтобы все веса находились в оперативной памяти (DRAM), что сжигает ресурсы устройства. Инженеры Apple применили метод Instruction-Following Pruning (IFP): полная модель хранится в постоянной флеш-памяти (NAND). Поскольку гонять веса туда-сюда под каждый токен слишком медленно, модель выбирает нужных экспертов под весь запрос целиком и лишь периодически обновляет их в процессе генерации. В итоге активируется всего от 1 до 4 млрд параметров, что позволило уложиться в рамки для разных устройств.

Облачные модели

Все серверные решения работают под защитой сквозной приватности Private Cloud Compute (PCC), гарантирующей, что данные пользователей не сохраняются.

  • AFM 3 Cloud. Серверная мультимодальная модель, построенная на базе доработанной архитектуры Parallel-Track Mixture-of-Experts (PT-MoE). Фокус сделан на стабилизации обучения и качестве удержания контекста при длинных запросах;

  • ADM 3 Cloud (Image). Диффузионная модель для генерации графики, Genmoji и сложной обработки фото. Расширяется под конкретные задачи с помощью специализированных адаптеров (например, для функции Spatial Reframing в приложении «Фото»);

  • AFM 3 Cloud Pro. Самая мощная нейросеть в каталоге для сложных логических рассуждений, математики и работы автономных ИИ-агентов. Ее масштабы потребовали от Apple расширения инфраструктуры PCC: модель оптимизирована под GPU NVIDIA внутри инфраструктуры Google Cloud, но работает под строгим контролем протоколов безопасности Apple.

Подавляющее большинство параметров модели — это «экспертные» веса, связанные с блоками обратной подачи (FFN) в архитектуре сложенного трансформатора. Источник.

Подавляющее большинство параметров модели — это «экспертные» веса, связанные с блоками обратной подачи (FFN) в архитектуре сложенного трансформатора. Источник.

Что это дает помимо Siri

Помимо контекстного поиска и прочего, мультимодальность AFM 3 Core Advanced существенно улучшила системные фичи.

Например, стали качественнее экспрессивные голоса (Text-to-Speech). В тестах по шкале MOS новая модель генерации голоса получила оценку 4,15 (прирост на 0,28 по сравнению с текущим продакшеном). В сценариях разговорной речи оценка поднялась до 4,24 против 3,82 у старой системы.

Не отстает и повышение точности диктовки. Новая архитектура при распознавании речи обходит старый движок по всем метрикам форматирования (расстановка пунктуации, капитализация, обработка заиканий и пауз). Качество пунктуации пользователи оценили выше старого решения в 50,2% случаев.

Для сжатия моделей без потери качества Apple применила метод квантования при обучении (Quantization Aware Training), что позволило запустить их на коммерческих чипах компании с минимальным оверхедом.

Apple + Google=? Купертиновцы представили Apple Foundation Model с интеграцией Gemini - 3

Облачная инфраструктура для ваших проектов

Виртуальные машины в Москве, Санкт-Петербурге и Новосибирске с оплатой по потреблению.

Подробнее →

Что с этим не так

С одной стороны, апдейт полезный, и пользоваться устройствами станет удобнее. С другой — Siri научилась понимать контекст, искать информацию в интернете и генерировать графику только сейчас. По-хорошему, все это она должна была уметь условно год назад, на самом старте интеграции нейросетей в смартфоны.

Apple просто закрыла очевидный долг перед пользователями, догнав по фичам конкурентов, которые давно умеют работать в таком режиме.

Автор: techno_mot

Источник