Вышли новые версии Qwen3-Next-80B в FP8 формате

Qwen представила новые версии своих моделей — Qwen3-Next-80B в формате FP8, и это одно из самых интересных обновлений в линейке. Обе модели — Instruct и Thinking — построены на базе MoE-архитектуры и FP8-квантования, что позволяет при огромном размере не только сохранить качество, но и заметно повысить скорость инференса и снизить потребление памяти ^[1].

Вышли новые версии Qwen3-Next-80B в FP8 формате - 2

Первая версия — Qwen3-Next-80B-A3B-Instruct-FP8 ^[2]. Она оптимизирована под сложные задачи рассуждений и анализа больших документов (до 262 тысяч токенов в стандартной конфигурации и с расширением до миллиона). Это делает модель особенно полезной для юридических документов, научных статей, корпоративных архивов и других сценариев, где важно обрабатывать большие массивы текста без потери связности.

Вышли новые версии Qwen3-Next-80B в FP8 формате - 3

Вторая версия — Qwen3-Next-80B-A3B-Thinking-FP8 ^[3]. Здесь акцент сделан на глубоких рассуждениях и логике ^[4]. В ней применено гибридное внимание ^[5] (Gated DeltaNet + Gated Attention), что открывает возможности для работы с супердлинными контекстами и сложными задачами. На бенчмарках по рассуждениям эта версия обгоняет не только собственные младшие модели Qwen3-30B и Qwen3-32B, но и закрытую Gemini-2.5-Flash-Thinking, которая до этого считалась одной из самых сильных в своей категории.

Вышли новые версии Qwen3-Next-80B в FP8 формате - 4

Отдельное внимание заслуживает использование FP8-точности. Это сравнительно новая техника, которая позволяет заметно ускорить инференс и снизить нагрузку на оборудование при минимальной потере качества. Для продакшн-задач, где важны и эффективность, и стабильность, такой баланс особенно ценен.

Вышли новые версии Qwen3-Next-80B в FP8 формате - 5

Кроме того, обе модели полностью совместимы с Transformers, vLLM и SGLang, что делает их удобными для интеграции в реальные проекты. Они открывают новые горизонты для компаний и исследователей, которым нужны быстрые, экономичные и при этом максимально мощные инструменты для анализа текста, рассуждений и работы с изображениями.

Таким образом, обновление Qwen3-Next-80B в формате FP8 можно назвать серьёзным шагом вперёд — оно делает модель ближе к практическим задачам и выводит её в лидеры среди открытых решений для работы с длинным контекстом и сложными сценариями мышления ^[6].

Делегируйте часть рутинных задач вместе с BotHub! ^[7] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[8] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/19781

URLs in this post:

[1] памяти: http://www.braintools.ru/article/4140

[2] Qwen3-Next-80B-A3B-Instruct-FP8: https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct-FP8

[3] Qwen3-Next-80B-A3B-Thinking-FP8: https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking-FP8

[4] логике: http://www.braintools.ru/article/7640

[5] внимание: http://www.braintools.ru/article/7595

[6] мышления: http://www.braintools.ru/thinking

[7] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=NEW%20VERSIONS%20OF%20QWEN3-NEXT-80B%20RELEASED%20IN%20FP8%20FORMAT

[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[9] Источник: https://habr.com/ru/companies/bothub/news/949408/?utm_source=habrahabr&utm_medium=rss&utm_campaign=949408

Нажмите здесь для печати.