- BrainTools - https://www.braintools.ru -

MiniMax M2.7: когда ИИ начинает эволюционировать сам. Технический разбор новой модели

MiniMax M2.7: когда ИИ начинает эволюционировать сам. Технический разбор новой модели - 1

TL;DR: MiniMax представила M2.7 — первую модель серии, которая участвовала в собственной доработке через RL-петли и агентные сценарии. Результаты: 56.22% на SWE-Pro, 1495 ELO на GDPval-AA, 97% adherence при работе с 40+ сложными навыками. Модель уже используется для автономной отладки продакшена и генерации full-stack проектов.

Введение: от обратной связи к самоэволюции

После релиза первых моделей серии M2 команда MiniMax получила огромный объём фидбека от разработчиков и исследователей. Вместо традиционного цикла «собрали данные → дообучили → выкатили апдейт» инженеры пошли дальше: они позволили модели участвовать в собственной эволюции.

M2.7 — это не просто очередная итерация с улучшенными метриками. Это первый эксперимент, в котором модель:

  • строила сложные агентные оркестрации (Agent Teams);

  • управляла динамическим поиском инструментов;

  • обновляла собственную память [1] и параметры RL-обучения;

  • оптимизировала архитектуру харнесса на основе результатов.

Проще говоря: часть работы по улучшению M2.7 выполнила… сама M2.7.


Архитектура самоэволюции: как модель учится улучшать себя

Исследовательский агент как «ко-пилот» для ML-инженера

Внутренний workflow MiniMax построен вокруг исследовательского агента, который взаимодействует с разными проектными группами. Система покрывает:

  • пайплайны данных;

  • тренировочные окружения;

  • инфраструктуру оценки;

  • кросс-командную коллаборацию;

  • персистентную память.

Пример RL-сценария:

  1. Исследователь формулирует гипотезу эксперимента.

  2. Агент проводит literature review, отслеживает спецификации, подготавливает данные.

  3. Запускает эксперимент, мониторит метрики в реальном времени.

  4. При аномалиях — автоматически читает логи, предлагает фиксы, создаёт MR, запускает smoke-тесты.

  5. Человек подключается только для критических решений.

По оценкам команды, M2.7 берёт на себя 30–50% рутинных операций в этом цикле, ускоряя итерации и снижая time-to-discovery.

MiniMax M2.7: когда ИИ начинает эволюционировать сам. Технический разбор новой модели - 2

Рекурсивная оптимизация харнесса

Ключевое наблюдение: способность модели рекурсивно улучшать собственный инструментарий не менее важна, чем качество генерации кода.

Внутренний харнесс M2.7:

  • автономно собирает фидбек;

  • формирует оценочные сеты для внутренних задач;

  • итеративно дорабатывает архитектуру, реализацию навыков (MCP) и механизмы памяти.

Кейс: оптимизация программирования на внутреннем скаффолде.

  • Модель запустила цикл «анализ фейлов → план изменений → правка кода → оценка → сравнение → решение» более 100 раз.

  • Нашла оптимальные комбинации гиперпараметров (temperature, frequency/presence penalty).

  • Внедрила авто-поиск паттернов багов в других файлах после фикса.

  • Добавила детекцию зацикливаний в агентный луп.

Результат: +30% к производительности на внутренних бенчмарках.

Эксперимент в low-resource сценариях: M2.7 на MLE Bench Lite

Для проверки гипотезы о полной автономности провели тест на 22 соревнованиях по машинному обучению [2] (MLE Bench Lite от OpenAI), выполняемых на одном GPU A30.

Архитектура агента:

  • краткосрочная память (markdown-логи итераций);

  • самокритика после каждого раунда;

  • цепочка самооптимизации на основе накопленного опыта [3].

Результаты после 24 часов эволюции (3 запуска):

Метрика

Значение

Лучшие награды

9🥇 5🥈 1🥉

Средняя доля наград

66.6%

Сравнение с лидерами

≈ Gemini-3.1 (66.6%), чуть ниже GPT-5.4 (71.2%) и Opus-4.6 (75.7%)

Это показывает, что даже в ограниченных ресурсах модель способна к содержательной самооптимизации.


Программная инженерия: от генерации кода к пониманию продакшена

Отладка в реальном времени: кейс production debugging

M2.7 демонстрирует не просто генерацию кода, а системное мышление [4]:

Алерт в продакшене

Корреляция метрик мониторинга + таймлайнов деплоя

Статанализ трейсов → гипотезы о root cause

Авто-подключение к БД для верификации

Поиск отсутствующего миграционного файла индекса

Предложение non-blocking CREATE INDEX для быстрого фикса

Формирование MR с объяснением и тестами

Практический эффект: время восстановления инцидентов сокращается до менее 3 минут против часов ручной отладки.

Бенчмарки: цифры, которые имеют значение

Бенчмарк

Результат M2.7

Комментарий

SWE-Pro

56.22%

На уровне GPT-5.3-Codex, близко к Opus

SWE Multilingual

76.5%

Лидерство [5] в мультиязычных сценариях

Multi SWE Bench

52.7%

Устойчивость к реальным инженерным задачам

VIBE-Pro (repo-level)

55.6%

Полноценная доставка проектов «под ключ»

Terminal Bench 2

57.0%

Глубокое понимание системной архитектуры

NL2Repo

39.8%

Работа с legacy-кодом и документацией

MiniMax M2.7: когда ИИ начинает эволюционировать сам. Технический разбор новой модели - 3

Agent Teams: мульти-агентная коллаборация как нативная фича

Важный сдвиг: M2.7 реализует Agent Teams не через промпты, а как внутреннюю способность:

  • чёткое разграничение ролей;

  • адверсариальная проверка логики;

  • соблюдение протоколов взаимодействия;

  • автономные решения в сложных state-машинах.

Это открывает путь к созданию виртуальных «мини-команд» для прототипирования продуктов — от идеи до MVP.


Профессиональные сценарии: офис, финансы, аналитика

Два столпа эффективности в office-задачах

  1. Экспертиза + доставка результатаНа GDPval-AA (45 моделей) M2.7 набрала 1495 ELO — лучший результат среди открытых моделей, уступая только закрытым лидерам (Opus 4.6, Sonnet 4.6, GPT-5.4).

  2. Работа в сложных окружениях

    • Toolathon: 46.3% accuracy (топ-уровень глобально).

    • MM Claw: 97% adherence при 40+ навыках >2000 токенов каждый.

Кейс: финансовый анализ компании (на примере TSMC)

Задача:На основе годового отчёта, транскриптов earnings call и внешних исследований:

  • спроектировать assumptions;

  • построить модель прогнозирования выручки;

  • сгенерировать PPT-презентацию и Word-отчёт по шаблонам.

Результат:M2.7 действует как junior-аналитик: читает источники, кросс-валидирует данные, строит модель, оформляет deliverables. По фидбеку практиков — вывод пригоден как черновик для дальнейшей работы.

📎 Примеры артефактов:

Развлечения и интерактив: от продуктивности к персонажам

Почему эмоциональный интеллект важен даже в agent-сценариях

С ростом популярности персональных агентов (OpenClaw и аналоги) пользователи начали ожидать не только эффективности, но и консистентности персонажа, эмпатии, вовлекающего диалога.

M2.7 усиливает именно эти аспекты:

  • стабильное удержание роли в длительных диалогах;

  • адаптация стиля под контекст;

  • проактивное взаимодействие с окружением.

OpenRoom: демо новой парадигмы взаимодействия

Команда представила OpenRoom — интерактивную среду, где:

  • персонажи «живут» в веб-интерфейсе, а не в текстовом потоке;

  • диалог триггерит визуальные изменения и сценарные события;

  • агент сам инициирует действия в окружении.

Это не просто чат-бот, а прототип интерактивного нарратива с агентной логикой [8].

🔗 Ресурсы:


Доступность и интеграция

M2.7 уже доступна:


Заключение: что это значит для разработчиков

  1. Самоэволюция — не хайп, а рабочий инструмент. Возможность модели оптимизировать собственный харнесс сокращает цикл R&D и открывает путь к автономным исследовательским агентам.

  2. Инженерное мышление > генерация кода. Успех M2.7 в production-debugging и system-level бенчмарках показывает: ценность смещается от «написать функцию» к «понять и починить систему».

  3. Мульти-агентность становится нативной. Если раньше Agent Teams требовали сложной оркестрации «снаружи», то теперь модель сама умеет держать роли и протоколы — это упрощает архитектуру приложений.

  4. Персонажи и интерактив — следующий фронтир. Для продуктов, где важен пользовательский опыт (геймификация, обучение, поддержка), консистентность персонажа и эмоциональный интеллект [14] становятся конкурентным преимуществом.


Статья подготовлена на основе официального анонса MiniMax. Бенчмарки и примеры приведены в соответствии с данными разработчика.

Автор: Smartor

Источник [15]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/27573

URLs in this post:

[1] память: http://www.braintools.ru/article/4140

[2] обучению: http://www.braintools.ru/article/5125

[3] опыта: http://www.braintools.ru/article/6952

[4] мышление: http://www.braintools.ru/thinking

[5] Лидерство: http://www.braintools.ru/article/1165

[6] [TSMC_Financial_Analysis.pptx]: https://filecdn.minimax.chat/public/964be32c-aedb-4783-a6ef-3c7581ae63fd.pptx

[7] [V1-TSMC_Equity_Research_Report.docx]: https://filecdn.minimax.chat/public/a242866e-abda-41f2-afdc-e383f80c6c3a.docx

[8] логикой: http://www.braintools.ru/article/7640

[9] github.com/MiniMax-AI/OpenRoom: https://github.com/MiniMax-AI/OpenRoom

[10] openroom.ai: http://openroom.ai

[11] agent.minimax.io: http://agent.minimax.io

[12] platform.minimax.io: http://platform.minimax.io

[13] подписка для разработчиков: https://platform.minimax.io/subscribe/coding-plan

[14] интеллект: http://www.braintools.ru/article/7605

[15] Источник: https://habr.com/ru/articles/1013606/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1013606

www.BrainTools.ru

Rambler's Top100