moe.
MiniMax M2.7 — самоэволюционирующая модель с упором на coding, Office-задачи и агентные сценарии
Китайская компания MiniMax 18 марта выпустила модель M2.7, которая участвовала в собственном обучении. Это не просто очередная LLM, а система, которая может автономно улучшать себя и свои процессы.Сразу на ваш суд промо-ролики:Отладка проблемы на уже работающем сервисе:M2.7 сгенерировала демо-страницу:
97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика
Меня зовут Борисов Павел, занимаюсь ML-исследованиями. Последние месяцы ковырялся с архитектурой MoE, где эксперты подключаются поверх замороженной модели. 22 эксперимента на одной RTX 4090, ниже разбор что получилось.Что за архитектураБерём предобученную языковую модель и замораживаем целиком, ни один вес не меняется. К каждому MLP-слою прикручиваем маленький обучаемый модуль, «эксперт». Сверху маршрутизатор — линейный слой на 37 тысяч параметров, который для каждого токена выбирает эксперта.
9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026
Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Полный цикл — от пользовательского запроса до production-ready кода с тестами и security review. Без людей в цикле.Ниже — конкретика: какие модели, на какие роли, почему именно эти, как они шарят GPU, сколько стоят в гигабайтах и какие бенчмарки реально определяют выбор. С конфигурациями развёртывания от одной RTX 4090 до кластера A100.TL;DR: 9 логических агентов = 3-4 физических модели. Минимальный сетап — 24 GB VRAM (одна RTX 4090). Полный продакшен — 211 GB (четыре A100). Интерактивный дашборд
97 часов на одной RTX 4090: как я учил нейросеть улучшать саму себя — и что пошло не так
Всё началось с простой идеи: что если подключать к языковой модели новые «навыки» как приложения к смартфону — без переобучения, без деградации, за полчаса? Я потратил 22 шага экспериментов и 97.5 GPU-часов на одной видеокарте, чтобы это проверить. Архитектура заработала идеально. А потом выяснилось, что модель, которая говорит на языке математики, совершенно не умеет решать задачи. Это история о том, как красивая метрика обманула исследователя, и как модель в итоге нашла выход сама.Меня зовут Борисов Павел, занимаюсь ML-исследованиями в BorisovAI
Китайцы снова сделали это: MiniMax-M2 — новая SOTA в опенсорсе для кодинга
Внезапно, но факт: свежая MiniMax-M2 от китайской команды MiniMaxAI догнала Grok 4 Fast и Gemini 2.5 Pro. MoE-модель с всего 10B активных параметров обошла многих топ-игроков — от Claude до Gemini и GLM.
GLM-4.6: новый флагман от Zhipu AI в области агентных рабочих процессов и кодинга
Вчера китайская компания Zhipu AI (Z.ai) представила обновлённую версию своей языковой модели - GLM-4.6. Это релиз, который заслуживает внимания не только из-за улучшенных показателей на бенчмарках, но и благодаря практическим улучшениям в реальных задачах: агентных рабочих процессах, долгоконтекстной обработке, программировании и интеграции с инструментами поиска.
Два пути из Тирании Квадрата: Сравнительный разбор MoE и SSM как наследников Трансформера
Архитектура Трансформеров, без сомнения, гениальна. Ее механизм внимания позволил моделям увидеть связи и зависимости в данных с невиданной ранее глубиной. Однако у этой конструкции есть врожденный порок, фундаментальный изъян, который из технической детали превратился в главный тормоз на пути к AI, способному на настоящее глубинное понимание. Имя этому пороку — «Тирания Квадрата».Технически это описывается как сложность O(n²): для обработки последовательности длиной n токенов требуется n*n
Kimi-K2
😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾Тимми 😅Введение
ByteDance анонсировал Seed-Thinking-v1.5, многообещающую модель AI, но пока недоступную для использования
Все началось с анонса модели OpenAI o1 в сентябре 2024 года, но настоящий рывок произошел с выпуском DeepSeek R1 в январе 2025 года

