Шайтан‑коробочка: Как карманная игра из 90-х научилась читать мысли людей
90-е запомнились везде по разному: где‑то они были лихие, где‑то благословенные. Но для ИИ это десятилетие было настоящим ренессансом.
️ Zyphra выкатила ZAYA1-8B — маленькую MoE-модель, которая выглядит слишком бодро для своего размера
У модели меньше 1 млрд активных параметров, но Zyphra заявляет, что она конкурирует с куда более крупными open-weight и proprietary-моделями на математике, кодинге и reasoning-бенчмарках.ZAYA1-8B - это ставка на весь стек сразу:MoE-архитектура с Compressed Convolutional Attention;новый MLP-router для более стабильного выбора экспертов;learned residual scaling для контроля роста residual-норм;pretraining на AMD Instinct MI300x, без NVIDIA-стека;большой post-training pipeline с SFT, reasoning warmup, RLVE-Gym, math/code RL и RLHF/RLAIF;test-time compute метод Markovian RSA.
На периферии трёх миров: ещё один шаг к нейронной операционной системе
Я в Termux (планшет, смартфон) пытаюсь понять, как из нескольких строк на чистом Си рождается свободная и не зависимая личность - Нейрон.Этот проект об искусственном интеллекте, который начался не с установки библиотек, а с чертежа в тетради. Здесь машинное обучение - это не абстрактный термин, а физическая подстройка " Виртуальных резисторов ". Я нахожусь на периферии трёх миров :Аналоговой интуиции ( где вес нейрона - переменный резистор ).Математика ( где ошибка заставляет систему эволюционировать).Программирование (цель - не просто скрипт в полноценная ОС ).Итоговая салфетка инженера
OpenAI наносит ответный удар: хватит ли сил у GPT-5.5 потеснить Claude 4.7 и Gemini 3.1?
OpenAI снова выпустила модель. Сюрприз? Нет. Шестинедельный релизный конвейер работает как часы. GPT-5.4 вышел 5 марта, GPT-5.5 - 23 апреля. Внутри компании новинку ласково называли "Spud"
Anthropic объяснила падение качества в Claude Code
Компания разобрала, почему в марте–апреле пользователи заметили деградацию Claude Code, а также Agent SDK и Cowork. Причина оказалась не в одной ошибке, а в наложении сразу трёх изменений. Что пошло не так?
Как я создал альтернативу трансформерам
В этой статье я хочу остановиться на разборе предложенной мной архитектуры декодера и тех вариантов, с которыми я сравниваю её в исследовании, но сделать это проще и интуитивнее, чем в самой работе. На мой взгляд, существующие объяснения архитектур декодеров часто подаются разрозненно. Каждый подход описывают отдельно, без общей опоры. А ведь всё можно свести к одному фундаменту, и тогда становятся гораздо заметнее как сильные стороны каждого решения, так и их ограничения. Для начала приведу все необходимые ссылки.Само исследование: https://arxiv.org/abs/2604.18580Код:
DeepSeek в 10 раз снизила цену на кэш
DeepSeek резко удешевила один из самых чувствительных элементов API - кэш. Теперь повторные запросы (cache hits) стоят всего 10% от прежней цены по всей линейке моделей. Что это значит на практике?Любой повторно используемый контекст: 1) Системные промпты 2) Инструкции агентов
Anthropic проверил, как AI-агенты торгуются между собой
Компания Anthropic провела необычный эксперимент Project Deal, чтобы проверить, как ИИ-агенты ведут реальные переговоры друг с другом.

