Почему ИИ в биологии — риск системных галлюцинаций?

Почему в биологических проектах уверенность нейронок часто опережает реальное научное понимание, и какие выводы из этого стоит сделать разработчикам.

Главный триумф AI в биологии – AlphaFold. Проект не возник из ниоткуда, он опирается на Protein Data Bank PDB базу данных, которую начали собирать еще в 1970-х. Успех модели обеспечили не только алгоритмы, но и десятилетия работы конкурса CASP, где эксперты верифицировали предсказания структур белков. Без жестких стандартов качества никакое GPU не дало бы результата. Многие команды пытаются применять ИИ там, где данных либо недостаточно, либо они не подходят. В медицине принято считать электронные медкарты золотой жилой, но для прорывов нужны новые биомаркеры и лабораторные исследования, которые сейчас недофинансированы.

Почему высокие показатели точности нейросетей в биологии бывают ложными?

Показательный пример — публикация в Nature Communications, где нейросеть предсказывала функции ферментов на основе 22 млн последовательностей. Все было идеально : обучение ^[1], валидация, тесты.

Почему ИИ в биологии — риск системных галлюцинаций? - 1

Ошибки ^[2] обнаружились, когда статью прочитала микробиолог Валери де Креси-Лагар. Она обнаружила, что для ферментов, которые она изучала 10 лет, модель выдала заведомо ложный результат. При детальном аудите вскрылись следующие системные ошибки:

Data Leakage: 135 якобы новых ферментов уже были в известных базах. Модель просто узнала их, а не предсказала.
Биологическая абсурдность: модели приписывали синтез веществ бактериям например, E. coli, которые физически не способны на это.
Переобучение: 12 разным ферментам была присвоена одна и та же узкая функция.

Показатели нейросети могут быть идеальными, но по факту это будет являться биологически мусором. И ведь без глубокой экспертизы такие ошибки проходят через рецензирование, превращаясь в научный ^[3] факт.

Каскады ошибок

Почему ИИ в биологии — риск системных галлюцинаций? - 2

Если в данных есть систематическое смещение, увеличение выборки только усугубит ошибку, например, приложение Zoe для отслеживания COVID-19. Оно не учитывало симптомы длительного ковида, такие как, туман в голове и усталость, потому что их не было в чек-листе. В итоге статистика по выздоровлению была ложной. Люди просто переставали пользоваться приложением, а алгоритм считал их здоровыми.

Разработчики часто объединяют биологические пути из разных статей в одну модель. В итоге получается схема, которая никогда не могла бы существовать в одной живой клетке. Это интерполяция в пустоте, ИИ соединяет точки, не понимая причинно-следственных связей.

Что это дает разработчику

Если вы работаете над проектом в любой сложной области, стоит учитывать следующие моменты:

Инвестиции в понимание механизмов важнее, чем погоня за SOTA-архитектурой. Нейросеть не создаст новую парадигму сам по себе.
Подробная спецификация данных: Нужно четко фиксировать, откуда взяты данные, какие у них ограничения и где их нельзя применять.

ИИ в науках о мощный инструмент, но вторичный, без качественной лабораторной базы и участия профильных ученых на каждом этапе мы рискуем построить индустрию на фундаменте из статистических ошибок.

Автор: Qwertcoser

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/28362

URLs in this post:

[1] обучение: http://www.braintools.ru/article/5125

[2] Ошибки: http://www.braintools.ru/article/4192

[3] научный: http://www.braintools.ru/article/7634

[4] Источник: https://habr.com/ru/articles/1020150/?utm_campaign=1020150&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.