ИИ без пробирок: CZI представила rBio — виртуальные клетки вместо лаборатории

Chan Zuckerberg Initiative ^[1] в четверг объявила о запуске rBio — первой модели ИИ, обученной рассуждать о клеточной биологии с помощью виртуальных симуляций, а не лабораторных опытов. Это прорыв, способный резко ускорить биомедицинские исследования и поиск новых лекарств.

Модель рассуждения, подробно описанная в научной статье ^[2], опубликованной на bioRxiv, демонстрирует новый подход — так называемую «мягкую верификацию» ^[3]. Вместо того чтобы опираться исключительно на экспериментальные данные, она использует предсказания виртуальных моделей клеток как обучающие сигналы. Такой сдвиг в парадигме позволяет ученым сначала проверять гипотезы на компьютере, экономя время и средства, прежде чем идти в лабораторию.

«Смысл в том, что у нас теперь есть сверхмощные модели клеток и мы можем прогнозировать результаты, не ставя опытов в пробирке, — объяснила в интервью Ана‑Мария Истрате, ведущий научный ^[4] сотрудник CZI и главный автор работы. — До сих пор соотношение в биологии было примерно таким: девяносто процентов исследований проходят через лабораторные тесты и только десять — через вычисления. Мы же хотим перевернуть это соотношение».

Как ИИ наконец научился говорить на языке живых клеток

Это объявление стало важной вехой на пути к амбициозной цели CZI — «победить, предотвратить и научиться контролировать все болезни к концу нынешнего столетия». Под руководством педиатра Присциллы Чан и Марка Цукерберга шестимиллиардная филантропическая инициатива все активнее направляет свои ресурсы на стык искусственного интеллекта ^[5] и биологии.

rBio решает одну из главных проблем при применении ИИ к биологии. Если крупные языковые модели вроде ChatGPT умеют отлично работать с текстом, то биологические модели‑»фундаменты» оперируют сложнейшими молекулярными данными, которые нельзя просто спросить на человеческом языке. Ученым приходилось искать обходные пути, чтобы наладить взаимодействие между мощными вычислительными системами и удобными интерфейсами.

«Фундаментальные биомодели — такие, как GREmLN и TranscriptFormer, — строятся на биологических данных, а значит, напрямую в привычном языке с ними не пообщаешься, — поясняет Истрате. — Нужно придумывать сложные способы обращения к ним».

Новая модель решила эту задачу: она аккумулировала знания из TranscriptFormer — виртуальной модели клетки, обученной на 112 миллионах клеток 12 видов, охватывающих полтора миллиарда лет эволюции, — и превратила их в систему, с которой исследователь может говорить на обычном английском.

Революция «мягкой верификации»: учим ИИ мыслить вероятностями, а не абсолютами

Главное новшество кроется в методике обучения ^[6] rBio. Традиционные модели рассуждений опираются на вопросы с однозначными ответами — вроде математических уравнений. Но биология устроена иначе: там царит неопределённость, а ответы почти всегда носят вероятностный характер и не укладываются в строгие бинарные рамки.

Команда CZI во главе с директором по ИИ Теофанисом Каралецосом и Истрате справилась с этим, применив обучение с подкреплением ^[7], где награды начисляются пропорционально правдоподобию ответа. Вместо жёсткого «да» или «нет» модель получает вознаграждение в зависимости от того, насколько её прогнозы совпадают с реальностью, смоделированной виртуальными клетками.

«Мы использовали новые приёмы в обучении LLM‑моделей, — отмечается в исследовании. — Взяли готовую языковую модель как каркас и доучили rBio через метод обучения с подкреплением. Но вместо серии простых вопросов с ответами „да/нет“ мы настраивали вознаграждения так, чтобы они соответствовали вероятности правильности ответа».

Благодаря этому, учёные теперь могут задавать сложные вопросы вроде: «Если подавить работу гена А, усилится ли активность гена B?» — и получать обоснованные ответы о том, как изменится клеточное состояние, включая переходы от здорового к патологическому.

Превзойдя эталоны: как rBio обошла модели, обученные на реальных лабораторных данных

В испытаниях на бенчмарке PerturbQA ^[8] — стандартном наборе данных для оценки прогнозов по изменению генов — rBio показала результаты на уровне моделей, обученных на лабораторных экспериментах. Более того, система превзошла базовые языковые модели и вплотную приблизилась к показателям специализированных биомоделей по ключевым метрикам.

Особенно впечатляет то, что rBio продемонстрировала мощные способности к «переносу знаний». Она успешно использовала представления о коэкспрессии генов, полученные из TranscriptFormer, чтобы точно прогнозировать эффекты их изменения — задачу совершенно иного уровня.

«Мы показали, что на наборе PerturbQA модели, обученные с использованием мягких верификаторов, умеют обобщать знания на клеточных линиях, не встречавшихся при обучении. Это потенциально позволяет обойти необходимость в данных, специфичных для каждой отдельной линии клеток», — отмечают исследователи.

При этом, если добавить метод цепочек рассуждений, rBio вышла на уровень state‑of‑the‑art, превзойдя прежнего лидера, модель SUMMER.

От социальной миссии к науке: спорный поворот CZI к чистым исследованиям

Объявление о rBio совпало с глубокими переменами в CZI ^[9]. Организация сместила акценты: от широкой филантропической миссии, где были и социальная справедливость, и образовательные реформы, — к более узкой, но целенаправленной ставке на научные исследования. Этот поворот вызвал недовольство среди части бывших сотрудников и грантополучателей, которые считали, что CZI отвернулась от прогрессивных инициатив.

Однако для Истрате, проработавшей здесь шесть лет, ставка на биологический ИИ стала скорее логичным продолжением. «Мой опыт ^[10] и работа почти не изменились. Я всегда была частью научной программы, сколько себя помню в CZI», — говорит она.

Фокус на виртуальных моделях клеток ^[11] стал результатом почти десятилетней подготовки. Организация инвестировала колоссальные средства в создание клеточных атласов — обширных баз данных, где отмечено, какие гены активны в тех или иных клетках разных организмов, — а также в инфраструктуру, необходимую для обучения масштабных биомоделей.

«Я искренне рада тому, что CZI делает все эти годы, — признаётся Истрате. — Всё это было подготовкой к сегодняшнему дню».

Без перекосов: как CZI формировала «честные» данные для обучения ИИ

Одним из ключевых преимуществ подхода CZI стали годы кропотливой работы с данными. Организация развивает CZ CELLxGENE ^[12] — один из крупнейших в мире репозиториев одноклеточных биологических данных, где вся информация проходит строгую проверку качества.

«Мы создали одни из первых и самых известных атласов транскриптомики — и делали это с упором на разнообразие, чтобы минимизировать перекосы по типам клеток, происхождению, тканям и донорам», — объясняет Истрате.

Это внимание ^[13] к качеству данных становится критически важным, когда речь идёт об обучении ИИ, способного влиять на медицинские решения. В отличие от некоторых коммерческих проектов, где используют общедоступные, но потенциально предвзятые наборы, модели CZI учатся на тщательно собранных биологических данных, отражающих разнообразие популяций и клеточных типов.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News ^[14].

Автор: dmitrifriend

Источник ^[15]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/18631

URLs in this post:

[1] Chan Zuckerberg Initiative: https://chanzuckerberg.com/

[2] научной статье: https://www.biorxiv.org/content/10.1101/2025.08.18.670981v2.full.pdf

[3] «мягкую верификацию»: https://chanzuckerberg.com/blog/rbio-reasoning-ai-model/

[4] научный: http://www.braintools.ru/article/7634

[5] интеллекта: http://www.braintools.ru/article/7605

[6] обучения: http://www.braintools.ru/article/5125

[7] подкреплением: http://www.braintools.ru/article/5528

[8] бенчмарке PerturbQA: https://github.com/genentech/PerturbQA

[9] глубокими переменами в CZI: https://www.nytimes.com/2025/06/28/technology/mark-zuckerberg-priscilla-chan-czi.html

[10] опыт: http://www.braintools.ru/article/6952

[11] виртуальных моделях клеток: https://chanzuckerberg.com/science/technology/virtual-cells/

[12] CZ CELLxGENE: https://cellxgene.cziscience.com/

[13] внимание: http://www.braintools.ru/article/7595

[14] BotHub AI News: https://t.me/bothub

[15] Источник: https://habr.com/ru/companies/bothub/news/939954/?utm_source=habrahabr&utm_medium=rss&utm_campaign=939954

Нажмите здесь для печати.