Прогресс на пути к созданию подлинной виртуальной клетки зависит от объединения двух подходов: способности искусственного интеллекта выявлять закономерности и причинно-следственной строгости механистических моделей.
На протяжении десятилетий биологи преследовали амбициозную цель построения «виртуальной клетки»: вычислительной модели, способной воспроизводить поведение живого организма на основе его молекулярных компонентов. Такая модель позволила бы проводить эксперименты, проектирование и оптимизацию in silico [«в кремнии», то есть целиком на компьютере / прим. перев.], экономя время и деньги исследователей.
В недавней статье, опубликованной в журнале Cell, была представлена одна из самых подробных механистических симуляций целой клетки из когда‑либо созданных: полный клеточный цикл минимальной бактерии JCVI-syn3A. Для построения вычислительных моделей JCVI-syn3A авторы включили в них все известные сведения о ней — сети биохимических реакций, паттерны экспрессии генов, пространственную структуру клетки и молекулярную динамику, — что позволило им визуализировать хромосомную репликацию и сегрегацию, а также гетерогенность этих процессов в 50 повторяющихся моделях. Хотя это впечатляющий вычислительный подвиг, пройдёт ещё много лет, прежде чем виртуальная клетка станет действительно полезной для биологов.
Традиционная механистическая модель виртуальной клетки представляет собой основанное на уравнениях моделирование клеточных процессов по принципу «снизу вверх», построенное на известных биологических механизмах с целью прогнозирования поведения клеток в различных условиях. Однако механистические модели сложно масштабировать за пределы относительно простых организмов. JCVI-syn3A — это синтетическая бактерия, содержащая 493 гена, которую легко манипулировать и изучать.
В настоящее время, благодаря достижениям в области искусственного интеллекта, формируется новая концепция виртуальной клетки. Вместо того чтобы собирать клетку из известных биохимических механизмов, ИИ изучает клеточное поведение непосредственно на основе крупномасштабных наборов данных транскриптомики, протеомики и визуализации. Обучая модели непосредственно на этих данных, системы ИИ могут усваивать статистические представления клеточных состояний без необходимости явно прописывать каждый лежащий в основе механизм. В принципе, такие подходы могут быстро масштабироваться на различные организмы и условия, позволяя создавать прогнозирующие виртуальные клетки для многих биологических систем, а не для одного тщательно реконструированного организма. Однако компромисс заключается в том, что этим моделям, построенным на основе крупномасштабных данных, может не хватать механистической прозрачности.
Функциональная виртуальная клетка стала бы мощным инструментом в сфере биотехнологии, будь то модель на основе ИИ или механистическая модель. Исследователи могли бы моделировать стратегии метаболической инженерии в микроорганизмах, таких как Escherichia coli или Saccharomyces cerevisiae, ещё до их создания, прогнозируя рост и производительность, а также выявляя оптимальные генетические изменения для таких применений, как производство биотоплива, или предсказывая токсичность лекарственных препаратов путём моделирования их воздействия на метаболические пути.
В области открытия лекарственных препаратов вместо экспериментального скрининга тысяч соединений компании могли бы сначала проводить скрининг клеточных реакций in silico. С помощью таких инструментов, как CRISPR, модели виртуальных клеток могли бы прогнозировать побочные эффекты и были бы особенно ценны для сложных генетических модификаций, затрагивающих несколько генов. Их можно было бы использовать для оптимизации модифицированных клеток и моделирования состояний заболеваний для нужд прецизионной медицины.
Эти применения пока остаются делом далёкого будущего — главным образом потому, что мы плохо понимаем бо́льшую часть молекулярных и белковых функций даже в хорошо изученных организмах. Отсутствуют многие кинетические параметры ферментов, а регуляторные взаимодействия не полностью картированы. Полностью механистические модели будут опираться на эти точные биохимические правила, и для них необходимо, чтобы тысячи параметров, таких как скорости реакций и аффинности связывания, были известны или оценены. Небольшие ошибки в параметрах могут распространяться по любой модели и приводить к нереалистичным эффектам.
Механистическое моделирование целых клеток также требует значительных вычислительных ресурсов, а модели искусственного интеллекта — тем более. Для обучения моделей ИИ требуется больше данных, специфичных для клеток. Кроме того, реальные биологические системы демонстрируют межклеточную изменчивость: две идентичные клетки могут вести себя по-разному из-за стохастической экспрессии генов или различий в окружающей среде, и это будет важно для реалистичных симуляций. Механистические модели хорошо справляются с этой задачей, и некоторые части модели JCVI-syn3A действительно включают стохастичность.
Эти ограничения не помешали компаниям и исследователям поддержать эту идею. В рамках конкурса Virtual Cell Challenge, организованного Arc Institute и завершившегося в конце прошлого года, было подано тысячи заявок из 14 стран. В середине 2025 года Arc Institute также представил свою модель виртуальной клетки первого поколения на базе ИИ — State, которая была обучена на данных 170 миллионов клеток и данных о возмущениях отдельных клеток из более чем 100 миллионов клеток 70 различных клеточных линий. SciLifeLab совсем недавно объявил о проекте Alpha Cell, в рамках которого создаётся прогнозирующая модель клетки на базе ИИ, использующая атлас белков человека и пространственные данные о клетках во времени. В конце прошлого года Chan Zuckerberg Initiative и NVIDIA запустили платформу Virtual Cells Platform, ориентированную на масштабируемость данных для разработки и внедрения моделей виртуальных клеток. Неудивительно, что Google DeepMind также проявляет интерес.
Во многих отношениях попытка создать виртуальную клетку напоминает начало проекта «Атлас клеток человека» (Human Cell Atlas, HCA) десять лет назад. Когда был предложен проект HCA, идея каталогизации всех типов клеток человека в едином ресурсе и создания визуальных атласов каждой ткани казалась амбициозной, хотя и существовала надежда, что такая карта преобразит биологию и медицину. Технологии, необходимые для создания HCA, тогда отсутствовали; их пришлось разрабатывать специально для этого проекта. Методы секвенирования отдельных клеток были неточными и непоследовательными; необходимо было определить типы клеток; это было дорого. Пришлось приложить значительные усилия для стандартизации протоколов и интеграции сложных данных, а задача анализа была не менее важна, чем сама биология. Созданные на сегодняшний день атласы тканей позволили выявить новые типы клеток, показали, как клетки изменяются со временем, и улучшили наше понимание заболеваний.
Создание по-настоящему полезных виртуальных клеток будет непростой задачей, требующей времени, совместной работы и значительных вычислительных ресурсов. На пути к созданию полезной виртуальной клетки будут разработаны новые инструменты и сделаны новые открытия в области биологии. Как показал опыт проекта HCA, не обязательно дожидаться полного завершения проекта, чтобы сделанные открытия уже сейчас изменили жизнь пациентов или повлияли на развитие биопроизводства.
Вышеупомянутые крупные компании и исследовательские проекты сосредоточены на моделях искусственного интеллекта, но то, что они называют моделями «виртуальных клеток», (пока) не является представлением целой клетки. Они могут предсказывать транскриптомные реакции на стимул или лекарство, либо трансляцию белков, но не рассматривают полные клеточные реакции и пути, как это делает проект JCVI-syn3A. Для полного понимания клеточной реакции в различных условиях и типах клеток потребуется интеграция как механистических подходов, так и подходов на основе ИИ.
Автор: SLY_G


