ИИ-ученые 2025: SR-Scientist, DeepEvolve и Kosmos — чем отличаются и зачем. И почему выстрелил Kosmos. agentic ai.. agentic ai. AI scientist.. agentic ai. AI scientist. Data Mining.. agentic ai. AI scientist. Data Mining. Edison Scientific.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing. symbolic regression.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing. symbolic regression. world models.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing. symbolic regression. world models. автономные агенты.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing. symbolic regression. world models. автономные агенты. Алгоритмы.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing. symbolic regression. world models. автономные агенты. Алгоритмы. ИИ-ученые.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing. symbolic regression. world models. автономные агенты. Алгоритмы. ИИ-ученые. искусственный интеллект.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing. symbolic regression. world models. автономные агенты. Алгоритмы. ИИ-ученые. искусственный интеллект. Исследования и прогнозы в IT.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing. symbolic regression. world models. автономные агенты. Алгоритмы. ИИ-ученые. искусственный интеллект. Исследования и прогнозы в IT. Машинное обучение.. agentic ai. AI scientist. Data Mining. Edison Scientific. Natural Language Processing. symbolic regression. world models. автономные агенты. Алгоритмы. ИИ-ученые. искусственный интеллект. Исследования и прогнозы в IT. Машинное обучение. нейросети.

В 2025-м на наших глазах складывается новый класс инструментов – ИИ-Ученые (AI-Scientist). Если раньше алгоритмы ИИ могли только генерировать идеи или перерабатывать уже известные решения, то современные системы умеют не просто придумывать гипотезы, но и реализовывать их на практике, тестировать и совершенствовать из раза в раз.

Речь не просто про чат-боты и Co-Pilot’ы, речь про агентные системы, которые сами ставят гипотезы, пишут и исполняют код, проверяют результаты и накапливают опыт.

В чем суть

В науке есть 3 сложных момента:

  1. понять, что уже известно и где пробелы/противоречия

  2. превратить идеи в работающий код/метод, а не в презентацию

  3. вытащить из цифр простые законы, которые объясняют мир.

Современные агенты закрывают каждое из этих мест по-разному – и это важно: они не конкуренты, а звенья одной цепи.

В статье разберем 3 разных роли в этой экосистеме:

SR-Scientist — ищет компактные формулы из числовых данных, DeepEvolve — добывает идеи из внешних источников и превращает их в рабочие алгоритмы, Kosmos — стыкует анализ данных и чтение литературы в длинном, аудируемом цикле и отдает отчет со ссылками на код и первоисточники.

Я расскажу про каждого ИИ-агента для науки, чем они отличаются, в каких сценариях лучше подойдут, и почему именно Kosmos наделал столько шума.

SR-Scientist: из чисел — в формулу

Обычно задача поиска фундаментальных уравнений по данным — сложная из-за шума и огромного пространства формул. Раньше решения программировались вручную, а LLM лишь подсказывала варианты. SR-Scientist поменял этот принцип.

Агент SR-Scientist способен самостоятельно открывать законы природы без участия человека. Такой агент анализирует данные, пишет и запускает код, формулирует и проверяет уравнения, находит оптимальные константы и шаг за шагом совершенствует гипотезы, используя обратную связь с результатами экспериментов. Он по сути выполняет всю работу человека – исследователя, только с машинной скоростью.

SR-Scientist: агент с инструментами анализа данных и оценки уравнений, а также буфер опыта

SR-Scientist: агент с инструментами анализа данных и оценки уравнений, а также буфер опыта

Под капотом — ReAct-агент с 2-мя инструментами: аналитик данных (для проверки статистики, ошибок и примеров) и оценщик уравнений (подбирает константы и вычисляет метрики формул). Есть память лучших решений (буфер опыта), чтобы не терять удачные структуры, и обучение с подкреплением для длинного, целенаправленного мышления

На бенчмарке LSR-Synth (4 дисциплины) SR-Scientist стабильно превосходит сильные базы по точности, лучше держится на шумных данных, надежнее обобщается на OOD-задачи и во многих случаях символически восстанавливает эталонные формулы.

https://arxiv.org/html/2510.11661v1 - сравнение SR-Scientist с дургими по 4-м дисциплинам

https://arxiv.org/html/2510.11661v1 – сравнение SR-Scientist с дургими по 4-м дисциплинам

Я рекомендую подробнее прочитать про SR-Scientist на arxiv.org – там наглядно и схематично рассказан его принцип работы, представлены бенчмарки 

Когда пригодится SR-Scientist: если требуется интерпретируемая формула (символьная регрессия) по табличным и временным рядам — компактное уравнение, объясняющее зависимость и пригодное для защиты перед экспертами (физика, материаловедение, биокинетика, эконометрика).

DeepEvolve: от идеи к лучшему алгоритму

 DeepEvolve так же как и SR-Scientist, автономный и объединяет deep research (планирование, поиск по внешним источникам, синтез идей) и эволюцию кода (кросс-файловые правки, системный дебаг, оценка, память кандидатов).

В общем, собирает внешние знания, формирует и проверяет гипотезы, переписывает и отлаживает многофайловый код, оценивает метрики и путем итераций улучшает решение. Такой режим снимает ограничения чистой эволюции* (когда модель замкнута на собственной памяти) и чистого ресерча* (идеи без реализации). Работает в цикле с обратной связью, как и в человеческом научном процессе. 

Эволюция кода без Deep Research и Эволюция кода + Deep Research благодаря DeepEvolve

Эволюция кода без Deep Research и Эволюция кода + Deep Research благодаря DeepEvolve
Оценка «Initial vs New algorithms» (LLM-as-a-judge) на задачах Molecule Prediction, Molecule Translation, Circle Packing, Burgers’ Equation, Parkinson’s Disease, Nuclei Image, Open Vaccine, USP P2P. Показаны три метрики: Originality, Future Potential, Code Difficulty. Источник: DeepEvolve, Fig. 3 (arXiv:2510.06056)

Оценка «Initial vs New algorithms» (LLM-as-a-judge) на задачах Molecule Prediction, Molecule Translation, Circle Packing, Burgers’ Equation, Parkinson’s Disease, Nuclei Image, Open Vaccine, USP P2P. Показаны три метрики: Originality, Future Potential, Code Difficulty. Источник: DeepEvolve, Fig. 3 (arXiv:2510.06056)
Метрики по каждой задаче

Метрики по каждой задаче

Когда пригодится DeepEvolve: у вас уже есть метод/ пайплайн, но стоит задача не просто исследовать, улучшить рабочий алгоритм и показать прирост метрик (скорость, точность, устойчивость).

Я рекомендую подробнее прочитать про DeepEvolve на arxiv.org – там наглядно и схематично рассказан его принцип работы

Kosmos: синхронизация больших данных и литературы

Kosmos – тоже ИИ-агент для автономных научных открытий, как и SR-Scientist и DeepEvolve. Их отличает архитектура, масштаб, набор инструментов, но общая идея (автоматизация большого цикла научного поиска без человека) абсолютно совпадает.

Kosmos -это следующая версия ИИ-Ученого от компании Edison Scientific (Представлен 5 ноября 2025). В отличие от прошлых поколений (например, Robin), Kosmos использует структурированную world model, которая держит общий контекст между агентом анализа данных и агентом литературы, чтобы условно одна «часть мозга» понимала, что нашла другая. 

Kosmos World Model

Kosmos World Model

Работает циклами до 12 часов: параллельно анализирует данные, ищет литературу и синтезирует выводы в отчеты. В отчетах каждое утверждение снабжено ссылкой на конкретный код или первоисточник (можно отследить путь к выводу). Для науки прозрачность – это критично.

За один прогон Kosmos выполняет около 200 агентных итераций, в среднем пишет около 42 000 строк кода и просматривает около 1 500 полнотекстовых статей за запуск. Словом, Kosmos способен читать тысячи научных статей, запускать десятки тысяч строк анализа данных и проводить сложные мультидисциплинарные исследования.

Отмечают суммарную корректность утверждений в отчетах ~79,4%

Цена и кредиты: $200 за запуск (это 200 кредитов по $1/кредит). Параллельно есть Founding Subscription $200/мес с 650 кредитами/мес. У Kosmos расход — 200 кредитов за прогон. Итоговая экономика зависит от того, платите ли вы за разовые прогоны или берете подписку, еще есть академический бесплатный тариф.

Так что Kosmos – это инструмент для дорогих вопросов, когда нужно за день получить то, что у группы заняло бы месяцы, – за 6 месяцев он сделал 7 научных открытий в нейронауке, материаловедении и генетике, – я на этом отдельно остановлюсь. 

Но сразу хочу обратить ваше внимание на то, что Kosmos не делает никаких физических экспериментов.  Это вычислительный агент, он анализирует уже существующие датасеты и литературу, а человек по-прежнему нужен, особенно для интерпретации результатов. 

Я рекомендую подробнее прочитать про Kosmos в этом PDF документе – там наглядно и схематично рассказан его принцип работы, представлены бенчмарки. PDF на английском, но вы всегда можете открыть сайт в ИИ-браузере Comet (или Atlas) и попросить в нем Ассистента перевести.

В общем, если у вас задача быстро охватить тему, проанализировать большие объемы данных и собрать аудируемый отчет (что известно, где противоречия, какие гипотезы стоит проверить) со всеми ссылками на код и первоисточниками, и показать коллегам на консилиуме, Kosmos потянет точно. 

Почему Kosmos сейчас на слуху

Этому послужила совокупность факторов:

  • Редкий случай, когда агент масштабно и аудируемо соединяет анализ данных и литературу.

  • Плюс понятная экономика конкретно под дорогие вопросы.

  • За 12 часов Kosmos успел прочитать 1500 статей, провести 200 исследовательских циклов и сгенерировать 42 тыс. строк кода.

  • Новый ИИ-агент сделал 7 научных открытий (4 новых и 3 уже известных), на которые человеку понадобилось бы 6 месяцев работы.

  • В добавок к этому, множество пабликов распространили информацию, что эти 7 открытый он сделал за один запуск. На самом деле это не за один запуск, а совокупно по разным прогонкам/кейсам, что никак не умаляет достоинств Kosmos.

При этом вмешательство человека все еще необходимо: если аналитические выводы агента были корректны на 85,5%, то интерпретационные — лишь на 57,9%.

Когда мы уже узнали про каждый инструмент, давайте разберемся, чем они по сути отличаются, как выбрать свой инструмент и какие риски и ограничения есть.

Различия SR-Scientist, DeepEvolve и Kosmos

Чем отличиаются SR-Scientist, DeepEvolve, Kosmos

Чем отличиаются SR-Scientist, DeepEvolve, Kosmos

Вход и режим работы:

  • Kosmos — берет много статей + существующие датасеты и объединяет их в линию рассуждения.

  • DeepEvolve — ищет идеи вне модели и тут же превращает их в исполняемый код.

  • SR-Scientist — работает на ваших численных данных, целенаправленно тянет компактное уравнение.

Что на выходе дает:

  • Kosmosаудируемый отчет + ссылки на код/первичники и конкретные гипотезы/нахождения.

  • DeepEvolve улучшенный алгоритм/реализация с приростом метрик на задачах.

  • SR-Scientistинтерпретируемая формула (символьная регрессия) + проверка на данных.

Как выбрать между SR-Scientist, DeepEvolve и Kosmos

  • Если нужно быстро сориентироваться в области и получить отчет (спорные точки и гипотезы с доказательной базой), который можно защищать перед коллегами – Kosmos 

  • Если нужны реальные улучшения метода в коде, а не красивые слова – DeepEvolve

  • У вас уже есть свои данные и нужен человеческий понятный закон/ формула из ваших чисел – SR-Scientist.

Ниже я более подробно раскрою тему:

  1. Kosmos – если цель большая наука. Подойдет, когда нужно “сузить круг”, понять, что уже известно, где спорные места, какие датасеты, какие гипотезы перспективны. На выходе вы получаете отчет с цитатами на код/статьи + shortlist гипотез. Тут уже 12-часовые прогоны с моделью мира (world model), которая связывает агента по данным и агента по литературе. Он за один прогон проглатывает около 1 500 статей, запускает около 42 000 строк анализа, держит общий контекст  и выдает проверяемый отчет с ссылками на код и источники. Человеческая оценка точности его выводов около 79,4%, к тому же есть 7 кейсов открытий. Но это уже и коммерческий проект – цена кусается – $200 за запуск (= 200 кредитов по $1), – уже сужает круг пользователей, исключая просто любопытных, – инструмент для дорогих вопросов. 

  2. DeepEvolve – когда нужно придумать/улучшить рабочий алгоритм (реальный код) по теме исследования. Он сочетает глубокое исследование и «эволюцию алгоритма» в одном цикле: ищет знания вне модели, нашел идею, реализовал, отладил (переписывает многофайловый код, дебажит), замерил и снова улучшил. На 9 бенчмарках стабильно выигрывает – химия, биология, математика, материалы, патенты. Открытый код. Этот инструмент больше про новые методы и прирост метрик, а не про обзор поля.  Грубо говоря, превратит перспективные идеи в исполняемые алгоритмы.

  3. SR-Scientist – поможет там, где нужна ясность, если нужно вывести понятную формулу/закон из ваших данных, чтобы понять механику процесса (и проще защитить результат перед отраслевыми экспертами). Сам автономно анализирует данные, строит и проверяет уравнения, подбирает константы, запоминает удачи и итеративно улучшает гипотезы. В экспериментах обгоняет сильные базовые подходы и лучше устойчив к “шуму”. Этот инструмент больше про интерпретируемые законы, а не про длинные отчеты или новые алгоритмы. Заточен под SR-задачи с метриками точности и символическим совпадением.

Риски и ограничения SR-Scientist, DeepEvolve и Kosmos

  • Kosmos не делает физических экспериментов и может зарываться в “кроличьи норы”, поэтому лучше запускать несколько прогонов  на одну цель+  нужна человеческая проверка. 

  • DeepEvolve не заменяет обзор поля, а  хорош там, где важна практичность кода и бенчмарки

  • SR-Scientist силен только в таких задачах, где существует компактный закон, если природа процесса — сложная без простой формулы, никакой магии не будет.

ИИ-Ученые – к чему это все ведет

  • ИИ-лаборатории – разделение труда между агентами становится нормой: один — про знания, второй — про код, третий — про формулы. Главное — ставить им правильные роли и склеивать результаты в единую продуваемую трубу. Например, Kosmos, чтобы быстро сузить поле и собрать проверяемые выводы, DeepEvolve, чтобы превратить идеи в работающие алгоритмы, SR-Scientist, чтобы там, где нужно, добыть четкую формулу. Вместе это уже похоже на «конвейер для открытий».

  • Роль человека меняется: меньше копает вручную, и больше ставит задачи, проверяет здравый смысл и планирует эксперименты. Без этого любой агент принесет не открытия, а уверенный бред. 

  • Побеждает прозрачность, то есть системы, где каждый вывод можно «прокликать» до кода/данных/статей. Здесь Kosmos уже задает планку, и остальные будут подтягиваться. 

Что ж, подобные агенты способны существенно ускорить научные открытия и минимизировать участие человека в рутинных научных поисках. P.S: Вы можете поддержать меня в моем канале НейроProfit – там я пишу более простым языком о том, в чем разбираюсь сама. ИИ-сервисы и LLM тестирую сама, так что накопилось достаточно проверенных нейросетей.

Автор: Neurosonya

Источник

Rambler's Top100