Qwen 3.5 с 397 млрд параметров запустили на iPhone 17 Pro: для этого понадобился внешний SSD. apple.. apple. ios.. apple. ios. iPhone.. apple. ios. iPhone. iphone 17 pro.. apple. ios. iPhone. iphone 17 pro. llm.. apple. ios. iPhone. iphone 17 pro. llm. moe.. apple. ios. iPhone. iphone 17 pro. llm. moe. qwen.. apple. ios. iPhone. iphone 17 pro. llm. moe. qwen. Qwen 3.5.. apple. ios. iPhone. iphone 17 pro. llm. moe. qwen. Qwen 3.5. Гаджеты.. apple. ios. iPhone. iphone 17 pro. llm. moe. qwen. Qwen 3.5. Гаджеты. искусственный интеллект.. apple. ios. iPhone. iphone 17 pro. llm. moe. qwen. Qwen 3.5. Гаджеты. искусственный интеллект. Машинное обучение.. apple. ios. iPhone. iphone 17 pro. llm. moe. qwen. Qwen 3.5. Гаджеты. искусственный интеллект. Машинное обучение. нейросети.. apple. ios. iPhone. iphone 17 pro. llm. moe. qwen. Qwen 3.5. Гаджеты. искусственный интеллект. Машинное обучение. нейросети. Смартфоны.

Разработчик под никнеймом Anemll запустил языковую модель Qwen 3.5 с 397 млрд параметров на iPhone 17 Pro. Веса модели подгружали с внешнего SSD, а скорость генерации ответов составила всего 0,6 токенов. Авторы проекта признают, что решение не годится для нормального использования, а лишь демонстрирует возможности.

Qwen 3.5 с 397 млрд параметров запустили на iPhone 17 Pro: для этого понадобился внешний SSD - 1

Для запуска языковой модели использовали опенсорс-проект Flash-MoE. Он обеспечивает потоковую загрузку весов модели прямо на GPU. В тестах запускали Qwen3.5-397B-A17B — MoE-модель на 397 млрд параметров. Архитектура модели построена так, что на каждом шаге генерации активируются лишь часть параметров, а не всю нейросеть полностью. 

Даже с учётом особенностей архитектуры и 4-битного квантования модели для работы надо около 200 ГБ оперативной памяти. В iPhone 17 Pro, на котором проводили тесты, оснащён всего 12 ГБ ОЗУ. Без потоковой загрузки весов она бы не смогла уместиться даже с применением агрессивных способов сжатия. С помощью Flash-MoE и внешнего SSD нейросеть запустилась, но работала со скоростью 0,6 токенов в секунду — это примерно генерация одного слова каждые 2-3 секунды. На MacBook Pro с M3 Max и 48 ГБ памяти результат был лучше — 4,3 токена в секунду.

Результат далёк от сценария массового использования, но показывает, что с помощью аппаратных ухищрений можно запускать модели с сотнями параметров на слабых устройствах. Разработчики в соцсетях отмечают, что инференс-код для тестов написали с помощью Claude Code, а саму Qwen3.5 довольно щадяще квантовали. При должной оптимизации можно добиться ускорения инференса в несколько раз.

Автор: daniilshat

Источник

Rambler's Top100