- BrainTools - https://www.braintools.ru -
У модели меньше 1 млрд активных параметров, но Zyphra заявляет, что она конкурирует с куда более крупными open-weight и proprietary-моделями на математике [1], кодинге и reasoning-бенчмарках.
ZAYA1-8B – это ставка на весь стек сразу:
MoE-архитектура с Compressed Convolutional Attention;
новый MLP-router для более стабильного выбора экспертов;
learned residual scaling для контроля роста residual-норм;
pretraining на AMD Instinct MI300x, без NVIDIA-стека;
большой post-training pipeline с SFT, reasoning warmup, RLVE-Gym, math/code RL и RLHF/RLAIF;
test-time compute метод Markovian RSA.
Markovian RSA – самая любопытная часть. Модель генерирует несколько reasoning-трасс параллельно, затем рекурсивно агрегирует их и продолжает рассуждение кусками, не раздувая контекст бесконечно. По заявлению Zyphra, именно это резко бустит сложные математические задачи.
На HMMT’25 они показывают 89.6 против 88.3 у Claude 4.5 Sonnet и GPT-5-High. А при extra-high test-time compute говорят, что ZAYA1-8B обходит DeepSeek-V3.2 и GPT-OSS-120B High на APEX-shortlist.
Модель полностью обучали на AMD-инфраструктуре. Для рынка это почти политическое заявление – serious AI training больше не обязан выглядеть как “NVIDIA or nothing”.
ZAYA1-8B доступна в Zyphra Cloud, веса выложены на Hugging Face, лицензия Apache-2.0. Тесты опубликую у себя в тг, заходите: rust_code [2]
Автор: vibecodingai
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/29949
URLs in this post:
[1] математике: http://www.braintools.ru/article/7620
[2] rust_code: https://t.me/rust_code
[3] https://www.zyphra.com/post/zaya1-8b: https://www.zyphra.com/post/zaya1-8b
[4] Источник: https://habr.com/ru/news/1032596/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1032596
Нажмите здесь для печати.