- BrainTools - https://www.braintools.ru -

Chan Zuckerberg Initiative [1] в четверг объявила о запуске rBio — первой модели ИИ, обученной рассуждать о клеточной биологии с помощью виртуальных симуляций, а не лабораторных опытов. Это прорыв, способный резко ускорить биомедицинские исследования и поиск новых лекарств.
Модель рассуждения, подробно описанная в научной статье [2], опубликованной на bioRxiv, демонстрирует новый подход — так называемую «мягкую верификацию» [3]. Вместо того чтобы опираться исключительно на экспериментальные данные, она использует предсказания виртуальных моделей клеток как обучающие сигналы. Такой сдвиг в парадигме позволяет ученым сначала проверять гипотезы на компьютере, экономя время и средства, прежде чем идти в лабораторию.
«Смысл в том, что у нас теперь есть сверхмощные модели клеток и мы можем прогнозировать результаты, не ставя опытов в пробирке, — объяснила в интервью Ана‑Мария Истрате, ведущий научный [4] сотрудник CZI и главный автор работы. — До сих пор соотношение в биологии было примерно таким: девяносто процентов исследований проходят через лабораторные тесты и только десять — через вычисления. Мы же хотим перевернуть это соотношение».
Это объявление стало важной вехой на пути к амбициозной цели CZI — «победить, предотвратить и научиться контролировать все болезни к концу нынешнего столетия». Под руководством педиатра Присциллы Чан и Марка Цукерберга шестимиллиардная филантропическая инициатива все активнее направляет свои ресурсы на стык искусственного интеллекта [5] и биологии.
rBio решает одну из главных проблем при применении ИИ к биологии. Если крупные языковые модели вроде ChatGPT умеют отлично работать с текстом, то биологические модели‑»фундаменты» оперируют сложнейшими молекулярными данными, которые нельзя просто спросить на человеческом языке. Ученым приходилось искать обходные пути, чтобы наладить взаимодействие между мощными вычислительными системами и удобными интерфейсами.
«Фундаментальные биомодели — такие, как GREmLN и TranscriptFormer, — строятся на биологических данных, а значит, напрямую в привычном языке с ними не пообщаешься, — поясняет Истрате. — Нужно придумывать сложные способы обращения к ним».
Новая модель решила эту задачу: она аккумулировала знания из TranscriptFormer — виртуальной модели клетки, обученной на 112 миллионах клеток 12 видов, охватывающих полтора миллиарда лет эволюции, — и превратила их в систему, с которой исследователь может говорить на обычном английском.
Главное новшество кроется в методике обучения [6] rBio. Традиционные модели рассуждений опираются на вопросы с однозначными ответами — вроде математических уравнений. Но биология устроена иначе: там царит неопределённость, а ответы почти всегда носят вероятностный характер и не укладываются в строгие бинарные рамки.
Команда CZI во главе с директором по ИИ Теофанисом Каралецосом и Истрате справилась с этим, применив обучение с подкреплением [7], где награды начисляются пропорционально правдоподобию ответа. Вместо жёсткого «да» или «нет» модель получает вознаграждение в зависимости от того, насколько её прогнозы совпадают с реальностью, смоделированной виртуальными клетками.
«Мы использовали новые приёмы в обучении LLM‑моделей, — отмечается в исследовании. — Взяли готовую языковую модель как каркас и доучили rBio через метод обучения с подкреплением. Но вместо серии простых вопросов с ответами „да/нет“ мы настраивали вознаграждения так, чтобы они соответствовали вероятности правильности ответа».
Благодаря этому, учёные теперь могут задавать сложные вопросы вроде: «Если подавить работу гена А, усилится ли активность гена B?» — и получать обоснованные ответы о том, как изменится клеточное состояние, включая переходы от здорового к патологическому.
В испытаниях на бенчмарке PerturbQA [8] — стандартном наборе данных для оценки прогнозов по изменению генов — rBio показала результаты на уровне моделей, обученных на лабораторных экспериментах. Более того, система превзошла базовые языковые модели и вплотную приблизилась к показателям специализированных биомоделей по ключевым метрикам.
Особенно впечатляет то, что rBio продемонстрировала мощные способности к «переносу знаний». Она успешно использовала представления о коэкспрессии генов, полученные из TranscriptFormer, чтобы точно прогнозировать эффекты их изменения — задачу совершенно иного уровня.
«Мы показали, что на наборе PerturbQA модели, обученные с использованием мягких верификаторов, умеют обобщать знания на клеточных линиях, не встречавшихся при обучении. Это потенциально позволяет обойти необходимость в данных, специфичных для каждой отдельной линии клеток», — отмечают исследователи.
При этом, если добавить метод цепочек рассуждений, rBio вышла на уровень state‑of‑the‑art, превзойдя прежнего лидера, модель SUMMER.
Объявление о rBio совпало с глубокими переменами в CZI [9]. Организация сместила акценты: от широкой филантропической миссии, где были и социальная справедливость, и образовательные реформы, — к более узкой, но целенаправленной ставке на научные исследования. Этот поворот вызвал недовольство среди части бывших сотрудников и грантополучателей, которые считали, что CZI отвернулась от прогрессивных инициатив.
Однако для Истрате, проработавшей здесь шесть лет, ставка на биологический ИИ стала скорее логичным продолжением. «Мой опыт [10] и работа почти не изменились. Я всегда была частью научной программы, сколько себя помню в CZI», — говорит она.
Фокус на виртуальных моделях клеток [11] стал результатом почти десятилетней подготовки. Организация инвестировала колоссальные средства в создание клеточных атласов — обширных баз данных, где отмечено, какие гены активны в тех или иных клетках разных организмов, — а также в инфраструктуру, необходимую для обучения масштабных биомоделей.
«Я искренне рада тому, что CZI делает все эти годы, — признаётся Истрате. — Всё это было подготовкой к сегодняшнему дню».
Одним из ключевых преимуществ подхода CZI стали годы кропотливой работы с данными. Организация развивает CZ CELLxGENE [12] — один из крупнейших в мире репозиториев одноклеточных биологических данных, где вся информация проходит строгую проверку качества.
«Мы создали одни из первых и самых известных атласов транскриптомики — и делали это с упором на разнообразие, чтобы минимизировать перекосы по типам клеток, происхождению, тканям и донорам», — объясняет Истрате.
Это внимание [13] к качеству данных становится критически важным, когда речь идёт об обучении ИИ, способного влиять на медицинские решения. В отличие от некоторых коммерческих проектов, где используют общедоступные, но потенциально предвзятые наборы, модели CZI учатся на тщательно собранных биологических данных, отражающих разнообразие популяций и клеточных типов.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News [14].
Автор: dmitrifriend
Источник [15]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/18631
URLs in this post:
[1] Chan Zuckerberg Initiative: https://chanzuckerberg.com/
[2] научной статье: https://www.biorxiv.org/content/10.1101/2025.08.18.670981v2.full.pdf
[3] «мягкую верификацию»: https://chanzuckerberg.com/blog/rbio-reasoning-ai-model/
[4] научный: http://www.braintools.ru/article/7634
[5] интеллекта: http://www.braintools.ru/article/7605
[6] обучения: http://www.braintools.ru/article/5125
[7] подкреплением: http://www.braintools.ru/article/5528
[8] бенчмарке PerturbQA: https://github.com/genentech/PerturbQA
[9] глубокими переменами в CZI: https://www.nytimes.com/2025/06/28/technology/mark-zuckerberg-priscilla-chan-czi.html
[10] опыт: http://www.braintools.ru/article/6952
[11] виртуальных моделях клеток: https://chanzuckerberg.com/science/technology/virtual-cells/
[12] CZ CELLxGENE: https://cellxgene.cziscience.com/
[13] внимание: http://www.braintools.ru/article/7595
[14] BotHub AI News: https://t.me/bothub
[15] Источник: https://habr.com/ru/companies/bothub/news/939954/?utm_source=habrahabr&utm_medium=rss&utm_campaign=939954
Нажмите здесь для печати.