Machine Learning в экологии, или где живёт снежный человек

В экологии происходит настоящая ML-революция.

Число публикаций с использованием матмоделирования растёт по закону Мура, а наличие ML-моделей и прогнозов становится стандартом в статьях про биологические виды и их будущее.

Появились модели, предсказывающие распространение видов в пространстве и во времени – на 100 лет вперёд или на 6000 лет назад. Экологи начали моделировать взаимодействие видов, сообществ – и целых экосистем.

Расскажу, почему это произошло, как работают такие модели на практике – и к чему всё это нас приведёт.

Machine Learning в экологии, или где живёт снежный человек - 1

Как моделируют распространение видов

Главную идею экологического моделирования можно описать в одном абзаце:

Представьте, у вас есть питомец, кот или собака. Вы знаете, что собака любит спать на мягком коврике у окна, а кот – на тёплом подоконнике над батареей. Вы интуитивно понимаете, в каких местах им комфортно, а где им не нравится. Переводим интуицию ^[1] на язык статистики – вот и получилась матмодель :)

Этот подход масштабируется вплоть до всей Земли. Для его работы достаточно определить одно понятие и одну гипотезу:

экологическая ниша – это геоклиматические предпочтения вида (“тёплая батарея”) и отношения с другими видами (“коты едят мышей”);
гипотеза консервативности экологической ниши (“котам нравятся тёплые батареи и есть мышей – и они постоянны в своих вкусах”).

Machine Learning в экологии, или где живёт снежный человек - 2

Весь прошлый век биологи при описании вида фиксировали его экологическую нишу:

трофическая ниша: хищник, травоядный;
климат: тепло, холодно, влажно, сухо;
рельеф местообитания: горы, равнины, моря;
почва: песок, глина, ил;
растительность: лес, луг, степь;
и многое другое.

Биологи интуитивно чувствовали, что каждый вид нужно описывать набором таких переменных – этот подход назвали “экологическим конвертом” (похоже на кортежи в программировании, правда?)

Появилась даже гипотеза, что эти наборы уникальные – и один “конверт” может описывать не более одного вида.

Machine Learning в экологии, или где живёт снежный человек - 3

Дальше. А что если взять все места на земле с такими же условиями – и обвести их по контуру? Получится что-то очень похожее на ареал этого вида животного/растения. А ведь эти условия могут встречаться в разных местах на Земле – на разной высоте, на разных континентах.

Эта идея витала в воздухе весь XX век, и авторов у неё – как у радио, в каждой стране. И тут на сцену выходит…

SDM – Species distribution modelling (*)

* SDM, Species Distribution Modelling – моделирование распространения видов.

– Я построил ML-модель, которая предсказывает этому виду 1000 лет жизни!
– Но в мире осталось всего три особи. И все три – самцы…

Теоретический аппарат экологического моделирования был разработан, в целом, к началу XX века. Первые практические модели стали появляться только в 1940-е годы – и были они … ручными!

Расскажу, как специалисты по Machine learning работали до появления Machine:

Machine Learning в экологии, или где живёт снежный человек - 4

Представьте, у вас есть 20-30 сообщений о наблюдениях редкого животного. Каждое сообщение сопровождается координатами.

Этап №1: берём контурную карту – и аккуратно отмечаем на ней все наблюдения.

Этап №2: идём к метеорологам, просим у них карту изотерм – среднегодовых температур за последние, скажем, 5 лет. Накладываем нашу карту на изотермы (буквально накладываем, на просвет через стекло) – и в отдельную табличку выписываем значения температур для наших точек.

Этап №3: аналогичным образом получаем значения высот над уровнем моря. И нам очень повезло, если все три карты в одном масштабе. Если нет – штош, увидимся через неделю…

В результате получается примерно такая таблица:

Наблюдение	Широта	Долгота	Температура	Высота
1	45.95	72.18	+7.3	184
2	46.03	73.84	+7.1	253

Этап №4: переносим получившиеся данные по температуре и высоте на график:

Machine Learning в экологии, или где живёт снежный человек - 5

Этап №5: обводим результат по контуру, отбрасывая явно выбивающиеся значения.

Ура, мы получили эмпирическую экологическую нишу (ЭЭН) вида. Это грубая модель в пространстве двух факторов (температура-высота), её точность в лучшем случае могла составлять 70-75% – и всё же это лучше, чем ничего.

Метод трудоёмкий. Моделирование ниши на двух слоях для сотни наблюдений могло занять целый месяц, а до следующего этапа доходили вообще единицы:

Этап №6: берём интересующую область на карте, размечаем клетки с шагом в 1 градус (или даже 0.1градус!) – и для каждой клетки составляем таблицу высота-температура. Если значение попадает в ЭЭН, значит, вид может встречаться в этом месте. Наносим все положительные результаты на карту – и получаем модель ареала вида.

В домашинную эпоху такой расчёт мог занять до года, и по объёму работ тянул на докторскую. Сколько там могло быть ошибок – понятно.

Что изменилось в XXI веке?

Удачно наложились четыре фактора. Появились они ещё в конце XX века, но массовыми стали в последние 5-10 лет:

Спутники дистанционного зондирования Земли. Они составили подробные карты всей планеты – рельеф, физ и хим состав почвы, покрытие растительностью, климат, речная сеть и дороги – и множество других. Точность этих карт (т.н. “слои предикторы”) иногда измеряется в метрах!

GPS-навигаторы в каждом смартфоне. Учёные и натуралисты получили возможность фиксировать наблюдения также с метровой точностью, а не 0.01-0.1 градуса, как раньше.

Платформы для натуралистов. iNaturalist, ebird – и другие платформы сделали регистрацию/валидацию научных наблюдений максимально простой, часто в игровой форме. GBIF с 3.5 млрд наблюдений (2025) – это GitHub мира экологии.

Компьютеры и методы Machine learning. Достаточно мощные, чтобы обсчитать миллионы точек на сотнях слоёв предикторов. И происходит это за минуты, а не за годы, как раньше.

А при чём здесь ML?

На первый взгляд кажется, что для построения карты ареала достаточно методов статистики, машинное обучение ^[2] не нужно. Так ли это?

Вопрос справедливый. Допустим, мы взяли пачку слоёв-предикторов. Наложили точки на карту, извлекли значения из всех слоёв. Получили распределения, как на этой картинке:

Machine Learning в экологии, или где живёт снежный человек - 6

Дальше определили средние значения по каждому предиктору. Определили ширину распределения. Получили оптимальный набор переменных для каждого вида (включая допустимое отклонение).

Отфильтровали все нужные точки на карте – всё, готово. И зачем тут учить какую-то модель, достаточно посчитать чисто средние значения и отфильтровать результаты? Pandas справится!

Проблема в том, что реальность оказывается…

Machine Learning в экологии, или где живёт снежный человек - 7

Вот типичная гистограмма. Это серая ворона, регион моделирования – Семиречье, Алматинская область.

Серым цветом дана гистограмма для высот в регионе. Минимальная высота – 300-400 метров, и чем выше – тем меньше точек с такой высотой. Логично ^[3].

Голубой цвет – частота встречаемости высот в точках наблюдения.

Видно, что чаще всего ворона встречается на высоте ~700 метров. И есть … ещё один пик на ~1600 метров. Два максимума? Это вообще легально?

А среднее значение тут ~1100 метров – это практически минимум распределения. Если отобрать на карте точки с высотой 1100 метров, вороны там как раз и не будет.

Machine Learning в экологии, или где живёт снежный человек - 8

Другой пример. Это белая лазоревка и количество осадков тёплого квартала.

Если вы изучали статистику, знаете, что распределение случайных величин похоже либо на колокол (нормальное), либо плавно снижается (как “серая” высота в прошлом примере). А что если гистограмма равномерно “размазана” по всем значениям? И каково оптимальное значение на этом графике?

Экологический смысл такого графика – наш вид от этого фактора практически не зависит. Ему комфортно при любом количестве осадков, если только их не больше ~200 мм в квартал.

А что можно сказать о графике с двумя максимумами? Тут мы имеем дело либо с двумя разорванными популяциями (подвидами) – и каждая из них адаптировалась к своим условиям. Либо мы наблюдаем … миграцию. Большинство предикторов усреднены по году, а летом и зимой видам нравится разное.

Machine Learning в экологии, или где живёт снежный человек - 9

Но подождите, а как миграция сочетается с гипотезой консервативности экологической ниши? Да никак, нужно переходить от моделирования по среднегодовым факторам – к хотя бы среднемесячным. Честно говоря, и другое фундаментальное экологическое понятие (ниша) испытывает трудности при столкновении с реальностью.

– Объясните, как работают эти ваши ML-модели!
– Сначала вы дайте строгое определение экологической ниши!

И тут встаёт вопрос, а что именно мы моделируем? Это точно не экологические ниши (иногда говорят “местообитания”). Это точно не ареал.

Но задача поставлена. Вот точки наблюдения вида, вот набор геоклиматических переменных. Много входных переменных -> чёрный ящик -> результат в формате “да/нет”. Это типичная задача бинарной классификации. И не применить ли для её решения методы машинного обучения?

Как прогнозируют будущее?

Вот общий сценарий современной SDM:

Собираем точки – координаты встреч животного или растения. Точки можно взять из собственных наблюдений, из научных работ – или из международных биологических баз данных, например, GBIF.org ^[4].
Собираем слои-предикторы – высота над уровнем моря, пересечённость и уклон поверхности, среднегодовая температура, влажность, состав почвы, удалённость от речной сети и т.д.
Накладываем координаты встреч на слои-предикторы. Получаем “конверты” биогеографических переменных.
Учим модель предсказывать вероятность встречи вида по этим “конвертам” – получаем экологическую нишу вида (местообитание).
“Проецируем” ЭЭН вида на карту – получаем ареал вида

Machine Learning в экологии, или где живёт снежный человек - 10

С определением ареала в настоящем времени примерно понятно. А как прогнозируют будущее?

Слои-предикторы делятся на две категории:

статические – которые глобально не изменятся в обозримом будущем. Высота над уровнем моря, уклон, физический состав почвы, расстояние от рек и т.д.;
динамические – температура, влажность, осадки, солнечная радиация, скорость ветра и т.д. – эти значения усреднены за несколько лет.

В 2021 году рабочая группа ОНН по изменению климата IPCC предложила пять наиболее вероятных сценариев до 2100 года: SSP, Shared Socioeconomic Pathways, Общие социально-экономические сценарии:

Machine Learning в экологии, или где живёт снежный человек - 11

Для каждого из этих сценариев доступен набор биоклиматических переменных ^[5] – предикторов с разрешением до 30 угловых секунд (примерно 1х1 км). Вообще, сценариев гораздо больше, и они разделяются на ветки, но для начала берут какую-то одну “среднюю из средних”, а дальше всё зависит от решаемых задач.

Общая логика прогнозирования ареала вида в будущем:

обучаем модель на статических переменных + динамические переменные для текущего периода;
запускаем прогноз по всей карте на тех же самых статических переменных, а динамические выбираем для будущих периодов.

Прогнозы идут пачками: 2021-2040, 2041-2060, 2061-2080 и 2081-2100. Таким образом, распространение вида можно оценить в динамике.

Например, прогноз распространения в Центральной Азии обыкновенной майны, или саранчового скворца. В списке агрессивных инвазивных видов от Международного союза охраны природы майна находится на втором месте.

Machine Learning в экологии, или где живёт снежный человек - 12

Видно, что к 2100 ареал майны увеличится на 59-242%. Также видно, что по наиболее вероятному сценарию SSP3-7.0 через пару десятилетий майна придёт в Южную Сибирь. Местным птицам от неё придётся несладко…

И зачем всё это нужно?

Подведу промежуточные итоги:

С помощью SDM можно находить редких животных и растения. Биогеографические модели помогают понять, где ещё может скрываться редкий вид, в каком местообитании его искать. С помощью этого метода были обнаружены многие ранее неизвестные популяции.
Гистограммы (помните как немного выше про ворону?) помогают изучить экологию и предпочтения вида, буквально не выходя из дома. Какой климат, рельеф, почва ему комфортны – и всё это с минимумом полевых исследований.
SDM помогают защищать природу. С помощью моделей мы можем увидеть, какие территории важны для жизни многих видов, т.н. “горячие точки биоразнообразия” – и решить, какие из них нужно охранять.
Прогнозировать будущее видов – изменение местообитаний животных и растений, когда климат изменится. Какие местообитания могут быть утрачены – и куда “переедут” обитающие там виды. Причём SDM строит не один прогноз, а обычно целую пачку под разные сценарии.
Но прогнозировать можно не только будущее. Методика позволяет “отмотать время назад” – и понять, как жили животные тысячи лет назад. Как сформировались уязвимые биотопы, например, степи. С помощью SDM можно смоделировать даже эволюцию ^[6] видов и целых биосистем.

Дальнейшее развитие идей SDM

1. Учёт соседей

Коту для хорошей жизни нужен не только тёплый подоконник над батареей (местообитание), но и две мышки в день (добыча), и чтобы собаки (конкуренты) жили подальше.

Следующий уровень – jSDM (joint) – учитывает взаимодействие между видами, точнее, моделирует их совместное распространение. В таких моделях учитываются связи между видами, например, хищник-жертва, конкуренция, симбиоз, распространение семян растений.

Говоря на “языке SDM”, в модели для каждого вида добавляется распространение других видов как слои-предикторы.

Дальнейшее развитие jSDM:

clSDM – Community-level species distribution modelling – фокусируется на целых сообществах, а не на отдельных видах;
MCM – Metacommunity modelling – как локальные сообщества видов связаны друг с другом через миграцию и как эти связи влияют на их распространение и разнообразие.

Machine Learning в экологии, или где живёт снежный человек - 13

2. Оценка численности видов

PAE – Population Abundance Estimation, DAM – Density/Abundance Modelling.

Тут сразу три метода:

IPM – Integrated Population Models – объединяет данные о пространственном распределении, обнаружении/необнаружении, чтобы одновременно оценить численность, популяционные параметры (рождаемость/смертность) и их связь с окружающей средой;
DS/OM – Distance Sampling with occupancy models – тут дистанционная выборка (distance sampling) используется для оценки плотности популяции (density) на основе наблюдаемых расстояний до особей, а модель занятости (occupancy) используется для учёта вероятности обнаружения вида, что повышает точность оценки численности;
RSF – Resource Selection Functions, HUM – Habitat Use Models с оценкой численности – эти методы моделируют выбор местообитаний и ресурсный баланс, давая оценку “энергетическими” методами.

Machine Learning в экологии, или где живёт снежный человек - 14

3. Учёт эволюции

Как виды могут приспосабливаться к меняющимся условиям, например, климату?

ASDM – Adaptive SDM, ESDM – Evolutionary SDM.

Эти методы расширяют SDM, включая в себя процессы естественного отбора и эволюции. Они пытаются спрогнозировать, как изменения окружающей среды (климат, ландшафт) могут привести к изменениям физиологических или поведенческих характеристик видов (адаптациям), что, в свою очередь, повлияет на их экологические ниши и на их распространение.

Методы включают в себя моделирование пластичности и эволюции признаков. И, как и все методы экологического моделирования, могут работать “назад” во времени.

Machine Learning в экологии, или где живёт снежный человек - 15

4. Продвинутые модели прогнозирования будущего

MSDM – Mechanistic Species Distribution Modelling – в дополнение к традиционным методам SDM пытается моделировать прямые причинно-следственные связи между условиями окружающей среды и жизнедеятельностью организмов.

DSDM – Dynamic Species Distribution Modelling – учитывают динамику популяций, включая рождаемость, смертность, миграцию, а также изменения среды во времени. Эти модели позволяют оценить скорость адаптации и мобильность видов.

5. Помощь в сохранении видов

Эти методы нельзя назвать развитием SDM, однако, результаты SDM часто используются в моделях природоохранной деятельности:

VAM – Vulnerability assessment modelling – оценка уязвимости видов к конкретным угрозам;
SM – Scenario modelling – моделирование различных сценариев и мер (изменение землепользования, эффективности природоохранных мер) для оценки их влияния на сохранение видов;
CPS – Conservation planning software – модели и целые программные комплексы для планирования и приоритезации действий в природоохранной биологии.

В общем, матмоделирование в последние годы здорово помогает биологам, особенно в плане обоснования природоохранных мер.

Фактически, эти методы позволили перейти от простого картирования ареалов к пониманию экологических процессов в цифрах – и их влиянию на биоразнообразие.

Сейчас я разрабатываю “SDM для всех” – программный комплекс, где любой желающий может за несколько минут смоделировать ареал интересующего вида. Ресурс открыт и доступен через браузер ^[7]. Код опубликован в github ^[8] как библиотека для языка Python, его можно запустить локально.

Постараюсь подробно ответить на вопросы по биогеографическому моделированию.

PS. Где же живёт снежный человек?

В США есть организация свидетелей Бигфута – местного снежного человека. Они задались целью собрать все точки наблюдений Бигфута от очевидцев.

Machine Learning в экологии, или где живёт снежный человек - 16

Группа учёных попробовала обучить смоделировать ареал Бигфута на основании этих точек. Вывод у них политкорректный: ареал Бигфута удивительно совпадает с ареалом одного широко известного животного ^[9]…

Так свидетели Бигфута поучаствовали в научном доказательстве, что его не существует.

Автор: kaichou

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24128

URLs in this post:

[1] интуицию: http://www.braintools.ru/article/6929

[2] обучение: http://www.braintools.ru/article/5125

[3] Логично: http://www.braintools.ru/article/7640

[4] GBIF.org: http://GBIF.org

[5] доступен набор биоклиматических переменных: https://www.worldclim.org/data/cmip6/cmip6_clim30s.html

[6] эволюцию: http://www.braintools.ru/article/7702

[7] доступен через браузер: https://wingeds.world/sdm

[8] в github: https://github.com/mad-kiba/python-sdm

[9] одного широко известного животного: https://www.researchgate.net/publication/216763696_Predicting_the_Distribution_of_Sasquatch_in_Western_North_America_Anything_Goes_with_Ecological_Niche_Modelling

[10] Источник: https://habr.com/ru/articles/983756/?utm_campaign=983756&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.