автономные агенты.

MLE-bench: золото взято, а доказательства остались в -tmp

В апреле мой агент смог перешагнуть золотой порог на MLE-bench в агентских соревнованиях Berkeley RDI, а когда я решил показать «тот самый код, который взял золото» — понял, что не уверен, существует ли он вообще.Хабр, привет! Меня зовут Георгий, и в своей первой статье на площадке я решил разобраться, что же происходило на самом деле. Цифровой детектив: с чем я преодолел планку, где этот результат теперь (спойлер: нигде) и сколько смысла в этом «золоте». Это история о том, как я расследовал собственную «победу»Про сами агентские соревнования уже хорошо написали коллеги из AI Talent Hub — пост

продолжить чтение

Почему память агентов должна храниться у вас

Есть странная мысль, от которой сложно отмахнуться: если у человека отобрать воспоминания, от него останется сильно меньше, чем кажется.С агентами похожая история. Агент без памяти каждый раз начинает с нуля. Он может быть умным, быстрым, вежливым, подключенным к 15 инструментам, но он не знает, кто вы, как вы работаете, что уже было решено, где вы обожглись, какие темы лучше не трогать, какие слова вас бесят, как устроены ваши проекты.И если вся эта память живет у провайдера модели, вы фактически отдаете ему кусок своей рабочей личности.Я не про жадность. Я про контроль.Память агента быстро становится активом

продолжить чтение

Самосовершенствующийся ИИ: что происходит внутри Anthropic

На протяжении большей части истории ИИ каждый шаг в его разработке делали люди. Но в Anthropic мы всё больше делегируем часть этой работы самим ИИ-системам — и это ускоряет наш прогресс.Если тенденция продолжится и ресурсов вычислений будет достаточно, она ведёт к системе, способной полностью автономно проектировать и разрабатывать собственного преемника. Это называется рекурсивным самосовершенствованием. Мы ещё не там, и оно не неизбежно. Но оно может наступить раньше, чем большинство институтов успеет подготовиться.Опираясь на публичные бенчмарки и ранее не публиковавшиеся внутренние данные Anthropic, 

продолжить чтение

AI-агентам скоро понадобится собственный Firewall. И вот почему

продолжить чтение

Релиз Qwen3.7-Max: лучше Claude Opus 4.6 на SWE-bench Pro

Alibaba выпустили Qwen3.7-Max: флагманскую закрытую модель серии Qwen3.

продолжить чтение

Манифест устойчивого ИИ: не более умные ассистенты, а новая форма цифрового существования

Я предлагаю смотреть на ИИ через ось устойчивости во времени, а не способностей. Три опоры — непрерывная идентичность, самомодификация, воспроизводство. Манифест и whitepaper исследовательского направления.Уже три года публичный разговор об ИИ крутится вокруг оси способности: насколько умна модель, сколько токенов, сколько бенчмарков. Я предлагаю смотреть на другую ось — устойчивость во времени.

продолжить чтение

В Китае начали разработку стандартов для автономных ИИ-агентов

Китайская академия информационных и коммуникационных технологий (CAICT) объявила о запуске инициативы по разработке комплексных стандартов для интеллектуальных агентов, известных как продукты класса Claw. Данный шаг направлен на регулирование сферы автономного искусственного интеллекта, где критически важными становятся вопросы прозрачности алгоритмов и безопасности пользовательских данных. Внедрение единых норм позволит минимизировать риски, возникающие в процессе перехода ИИ от простых ответов на запросы к самостоятельному выполнению сложных последовательных задач.

продолжить чтение

Акции китайских IT-гигантов взлетели на фоне «разведения лобстеров»

Фондовые рынки Китая и Гонконга переживают настоящий бум: акции ведущих технологических компаний стремительно идут вверх на фоне массового внедрения OpenClaw — автономного ИИ-агента с открытым исходным кодом. Технологическая гонка, которую в китайском сегменте интернета уже в шутку окрестили «разведением лобстеров» (raising a lobster), охватила крупнейших игроков рынка, включая Tencent, Alibaba, ByteDance и Xiaomi.

продолжить чтение

Почему будущее ИИ-агентов — децентрализованные сети, а не оркестраторы

Статья написана мной на основе личных экспериментов и исследований в области децентрализованных когнитивных систем.Нейросеть использовалась исключительно для редакторской правки — улучшения формулировок, устранения грамматических ошибок и повышения читаемости текста.Все идеи, архитектурные принципы и выводы принадлежат автору.Почему современные агентные системы остаются централизованными, даже когда выглядят как «рои» — и зачем для автономных ИИ нужен децентрализованный протокол.Этот текст основан на спецификации

продолжить чтение

Opus 4.6 и команда ИИ-агентов написала компилятор С за 2 недели

Исследователь Anthropic Николас Карлини провёл эксперимент с так называемыми agent teams — группой автономных LLM-агентов, которые работают над одним проектом без постоянного участия человека.В качестве стресс-теста он запустил 16 экземпляров Claude Opus 4.6 и поручил им написать компилятор С на Rust с нуля. Цель была следующей: компилятор должен уметь собирать Linux kernel. После почти 2000 сессий, двух недель работы и затрат около 20 000 долларов агенты выдали

продолжить чтение

12