- BrainTools - https://www.braintools.ru -

Qwen представила новые версии своих моделей — Qwen3-Next-80B в формате FP8, и это одно из самых интересных обновлений в линейке. Обе модели — Instruct и Thinking — построены на базе MoE-архитектуры и FP8-квантования, что позволяет при огромном размере не только сохранить качество, но и заметно повысить скорость инференса и снизить потребление памяти [1].

Первая версия — Qwen3-Next-80B-A3B-Instruct-FP8 [2]. Она оптимизирована под сложные задачи рассуждений и анализа больших документов (до 262 тысяч токенов в стандартной конфигурации и с расширением до миллиона). Это делает модель особенно полезной для юридических документов, научных статей, корпоративных архивов и других сценариев, где важно обрабатывать большие массивы текста без потери связности.

Вторая версия — Qwen3-Next-80B-A3B-Thinking-FP8 [3]. Здесь акцент сделан на глубоких рассуждениях и логике [4]. В ней применено гибридное внимание [5] (Gated DeltaNet + Gated Attention), что открывает возможности для работы с супердлинными контекстами и сложными задачами. На бенчмарках по рассуждениям эта версия обгоняет не только собственные младшие модели Qwen3-30B и Qwen3-32B, но и закрытую Gemini-2.5-Flash-Thinking, которая до этого считалась одной из самых сильных в своей категории.

Отдельное внимание заслуживает использование FP8-точности. Это сравнительно новая техника, которая позволяет заметно ускорить инференс и снизить нагрузку на оборудование при минимальной потере качества. Для продакшн-задач, где важны и эффективность, и стабильность, такой баланс особенно ценен.

Кроме того, обе модели полностью совместимы с Transformers, vLLM и SGLang, что делает их удобными для интеграции в реальные проекты. Они открывают новые горизонты для компаний и исследователей, которым нужны быстрые, экономичные и при этом максимально мощные инструменты для анализа текста, рассуждений и работы с изображениями.
Таким образом, обновление Qwen3-Next-80B в формате FP8 можно назвать серьёзным шагом вперёд — оно делает модель ближе к практическим задачам и выводит её в лидеры среди открытых решений для работы с длинным контекстом и сложными сценариями мышления [6].
Делегируйте часть рутинных задач вместе с BotHub! [7] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [8] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19781
URLs in this post:
[1] памяти: http://www.braintools.ru/article/4140
[2] Qwen3-Next-80B-A3B-Instruct-FP8: https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Instruct-FP8
[3] Qwen3-Next-80B-A3B-Thinking-FP8: https://huggingface.co/Qwen/Qwen3-Next-80B-A3B-Thinking-FP8
[4] логике: http://www.braintools.ru/article/7640
[5] внимание: http://www.braintools.ru/article/7595
[6] мышления: http://www.braintools.ru/thinking
[7] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=NEW%20VERSIONS%20OF%20QWEN3-NEXT-80B%20RELEASED%20IN%20FP8%20FORMAT
[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[9] Источник: https://habr.com/ru/companies/bothub/news/949408/?utm_source=habrahabr&utm_medium=rss&utm_campaign=949408
Нажмите здесь для печати.