ИИ без пробирок: CZI представила rBio — виртуальные клетки вместо лаборатории. chan zuckerberg initiative.. chan zuckerberg initiative. cz cellxgene.. chan zuckerberg initiative. cz cellxgene. gremln.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer. ана-мария истрате.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer. ана-мария истрате. Блог компании BotHub.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer. ана-мария истрате. Блог компании BotHub. Будущее здесь.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer. ана-мария истрате. Блог компании BotHub. Будущее здесь. здоровье.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer. ана-мария истрате. Блог компании BotHub. Будущее здесь. здоровье. искусственный интеллект.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer. ана-мария истрате. Блог компании BotHub. Будущее здесь. здоровье. искусственный интеллект. Исследования и прогнозы в IT.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer. ана-мария истрате. Блог компании BotHub. Будущее здесь. здоровье. искусственный интеллект. Исследования и прогнозы в IT. марк цукерберг.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer. ана-мария истрате. Блог компании BotHub. Будущее здесь. здоровье. искусственный интеллект. Исследования и прогнозы в IT. марк цукерберг. присцилла чан.. chan zuckerberg initiative. cz cellxgene. gremln. perturbqa. rbio. transcriptformer. ана-мария истрате. Блог компании BotHub. Будущее здесь. здоровье. искусственный интеллект. Исследования и прогнозы в IT. марк цукерберг. присцилла чан. теофанис каралецос.
ИИ без пробирок: CZI представила rBio — виртуальные клетки вместо лаборатории - 1

Chan Zuckerberg Initiative в четверг объявила о запуске rBio — первой модели ИИ, обученной рассуждать о клеточной биологии с помощью виртуальных симуляций, а не лабораторных опытов. Это прорыв, способный резко ускорить биомедицинские исследования и поиск новых лекарств.

Модель рассуждения, подробно описанная в научной статье, опубликованной на bioRxiv, демонстрирует новый подход — так называемую «мягкую верификацию». Вместо того чтобы опираться исключительно на экспериментальные данные, она использует предсказания виртуальных моделей клеток как обучающие сигналы. Такой сдвиг в парадигме позволяет ученым сначала проверять гипотезы на компьютере, экономя время и средства, прежде чем идти в лабораторию.

«Смысл в том, что у нас теперь есть сверхмощные модели клеток и мы можем прогнозировать результаты, не ставя опытов в пробирке, — объяснила в интервью Ана‑Мария Истрате, ведущий научный сотрудник CZI и главный автор работы. — До сих пор соотношение в биологии было примерно таким: девяносто процентов исследований проходят через лабораторные тесты и только десять — через вычисления. Мы же хотим перевернуть это соотношение».

Как ИИ наконец научился говорить на языке живых клеток

Это объявление стало важной вехой на пути к амбициозной цели CZI — «победить, предотвратить и научиться контролировать все болезни к концу нынешнего столетия». Под руководством педиатра Присциллы Чан и Марка Цукерберга шестимиллиардная филантропическая инициатива все активнее направляет свои ресурсы на стык искусственного интеллекта и биологии.

rBio решает одну из главных проблем при применении ИИ к биологии. Если крупные языковые модели вроде ChatGPT умеют отлично работать с текстом, то биологические модели‑»фундаменты» оперируют сложнейшими молекулярными данными, которые нельзя просто спросить на человеческом языке. Ученым приходилось искать обходные пути, чтобы наладить взаимодействие между мощными вычислительными системами и удобными интерфейсами.

«Фундаментальные биомодели — такие, как GREmLN и TranscriptFormer, — строятся на биологических данных, а значит, напрямую в привычном языке с ними не пообщаешься, — поясняет Истрате. — Нужно придумывать сложные способы обращения к ним».

Новая модель решила эту задачу: она аккумулировала знания из TranscriptFormer — виртуальной модели клетки, обученной на 112 миллионах клеток 12 видов, охватывающих полтора миллиарда лет эволюции, — и превратила их в систему, с которой исследователь может говорить на обычном английском.

Революция «мягкой верификации»: учим ИИ мыслить вероятностями, а не абсолютами

Главное новшество кроется в методике обучения rBio. Традиционные модели рассуждений опираются на вопросы с однозначными ответами — вроде математических уравнений. Но биология устроена иначе: там царит неопределённость, а ответы почти всегда носят вероятностный характер и не укладываются в строгие бинарные рамки.

Команда CZI во главе с директором по ИИ Теофанисом Каралецосом и Истрате справилась с этим, применив обучение с подкреплением, где награды начисляются пропорционально правдоподобию ответа. Вместо жёсткого «да» или «нет» модель получает вознаграждение в зависимости от того, насколько её прогнозы совпадают с реальностью, смоделированной виртуальными клетками.

«Мы использовали новые приёмы в обучении LLM‑моделей, — отмечается в исследовании. — Взяли готовую языковую модель как каркас и доучили rBio через метод обучения с подкреплением. Но вместо серии простых вопросов с ответами „да/нет“ мы настраивали вознаграждения так, чтобы они соответствовали вероятности правильности ответа».

Благодаря этому, учёные теперь могут задавать сложные вопросы вроде: «Если подавить работу гена А, усилится ли активность гена B?» — и получать обоснованные ответы о том, как изменится клеточное состояние, включая переходы от здорового к патологическому.

Превзойдя эталоны: как rBio обошла модели, обученные на реальных лабораторных данных

В испытаниях на бенчмарке PerturbQA — стандартном наборе данных для оценки прогнозов по изменению генов — rBio показала результаты на уровне моделей, обученных на лабораторных экспериментах. Более того, система превзошла базовые языковые модели и вплотную приблизилась к показателям специализированных биомоделей по ключевым метрикам.

Особенно впечатляет то, что rBio продемонстрировала мощные способности к «переносу знаний». Она успешно использовала представления о коэкспрессии генов, полученные из TranscriptFormer, чтобы точно прогнозировать эффекты их изменения — задачу совершенно иного уровня.

«Мы показали, что на наборе PerturbQA модели, обученные с использованием мягких верификаторов, умеют обобщать знания на клеточных линиях, не встречавшихся при обучении. Это потенциально позволяет обойти необходимость в данных, специфичных для каждой отдельной линии клеток», — отмечают исследователи.

При этом, если добавить метод цепочек рассуждений, rBio вышла на уровень state‑of‑the‑art, превзойдя прежнего лидера, модель SUMMER.

От социальной миссии к науке: спорный поворот CZI к чистым исследованиям

Объявление о rBio совпало с глубокими переменами в CZI. Организация сместила акценты: от широкой филантропической миссии, где были и социальная справедливость, и образовательные реформы, — к более узкой, но целенаправленной ставке на научные исследования. Этот поворот вызвал недовольство среди части бывших сотрудников и грантополучателей, которые считали, что CZI отвернулась от прогрессивных инициатив.

Однако для Истрате, проработавшей здесь шесть лет, ставка на биологический ИИ стала скорее логичным продолжением. «Мой опыт и работа почти не изменились. Я всегда была частью научной программы, сколько себя помню в CZI», — говорит она.

Фокус на виртуальных моделях клеток стал результатом почти десятилетней подготовки. Организация инвестировала колоссальные средства в создание клеточных атласов — обширных баз данных, где отмечено, какие гены активны в тех или иных клетках разных организмов, — а также в инфраструктуру, необходимую для обучения масштабных биомоделей.

«Я искренне рада тому, что CZI делает все эти годы, — признаётся Истрате. — Всё это было подготовкой к сегодняшнему дню».

Без перекосов: как CZI формировала «честные» данные для обучения ИИ

Одним из ключевых преимуществ подхода CZI стали годы кропотливой работы с данными. Организация развивает CZ CELLxGENE — один из крупнейших в мире репозиториев одно­клеточных биологических данных, где вся информация проходит строгую проверку качества.

«Мы создали одни из первых и самых известных атласов транскриптомики — и делали это с упором на разнообразие, чтобы минимизировать перекосы по типам клеток, происхождению, тканям и донорам», — объясняет Истрате.

Это внимание к качеству данных становится критически важным, когда речь идёт об обучении ИИ, способного влиять на медицинские решения. В отличие от некоторых коммерческих проектов, где используют общедоступные, но потенциально предвзятые наборы, модели CZI учатся на тщательно собранных биологических данных, отражающих разнообразие популяций и клеточных типов.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News.

Автор: dmitrifriend

Источник