- BrainTools - https://www.braintools.ru -
Почему в биологических проектах уверенность нейронок часто опережает реальное научное понимание, и какие выводы из этого стоит сделать разработчикам.
Главный триумф AI в биологии – AlphaFold. Проект не возник из ниоткуда, он опирается на Protein Data Bank PDB базу данных, которую начали собирать еще в 1970-х. Успех модели обеспечили не только алгоритмы, но и десятилетия работы конкурса CASP, где эксперты верифицировали предсказания структур белков. Без жестких стандартов качества никакое GPU не дало бы результата. Многие команды пытаются применять ИИ там, где данных либо недостаточно, либо они не подходят. В медицине принято считать электронные медкарты золотой жилой, но для прорывов нужны новые биомаркеры и лабораторные исследования, которые сейчас недофинансированы.
Показательный пример — публикация в Nature Communications, где нейросеть предсказывала функции ферментов на основе 22 млн последовательностей. Все было идеально : обучение [1], валидация, тесты.

Ошибки [2] обнаружились, когда статью прочитала микробиолог Валери де Креси-Лагар. Она обнаружила, что для ферментов, которые она изучала 10 лет, модель выдала заведомо ложный результат. При детальном аудите вскрылись следующие системные ошибки:
Data Leakage: 135 якобы новых ферментов уже были в известных базах. Модель просто узнала их, а не предсказала.
Биологическая абсурдность: модели приписывали синтез веществ бактериям например, E. coli, которые физически не способны на это.
Переобучение: 12 разным ферментам была присвоена одна и та же узкая функция.
Показатели нейросети могут быть идеальными, но по факту это будет являться биологически мусором. И ведь без глубокой экспертизы такие ошибки проходят через рецензирование, превращаясь в научный [3] факт.

Если в данных есть систематическое смещение, увеличение выборки только усугубит ошибку, например, приложение Zoe для отслеживания COVID-19. Оно не учитывало симптомы длительного ковида, такие как, туман в голове и усталость, потому что их не было в чек-листе. В итоге статистика по выздоровлению была ложной. Люди просто переставали пользоваться приложением, а алгоритм считал их здоровыми.
Разработчики часто объединяют биологические пути из разных статей в одну модель. В итоге получается схема, которая никогда не могла бы существовать в одной живой клетке. Это интерполяция в пустоте, ИИ соединяет точки, не понимая причинно-следственных связей.
Если вы работаете над проектом в любой сложной области, стоит учитывать следующие моменты:
Инвестиции в понимание механизмов важнее, чем погоня за SOTA-архитектурой. Нейросеть не создаст новую парадигму сам по себе.
Подробная спецификация данных: Нужно четко фиксировать, откуда взяты данные, какие у них ограничения и где их нельзя применять.
ИИ в науках о мощный инструмент, но вторичный, без качественной лабораторной базы и участия профильных ученых на каждом этапе мы рискуем построить индустрию на фундаменте из статистических ошибок.
Автор: Qwertcoser
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/28362
URLs in this post:
[1] обучение: http://www.braintools.ru/article/5125
[2] Ошибки: http://www.braintools.ru/article/4192
[3] научный: http://www.braintools.ru/article/7634
[4] Источник: https://habr.com/ru/articles/1020150/?utm_campaign=1020150&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.