- BrainTools - https://www.braintools.ru -

Machine Learning в экологии, или где живёт снежный человек

В экологии происходит настоящая ML-революция. 

Число публикаций с использованием матмоделирования растёт по закону Мура, а наличие ML-моделей и прогнозов становится стандартом в статьях про биологические виды и их будущее.

Появились модели, предсказывающие распространение видов в пространстве и во времени – на 100 лет вперёд или на 6000 лет назад. Экологи начали моделировать взаимодействие видов, сообществ – и целых экосистем. 

Расскажу, почему это произошло, как работают такие модели на практике – и к чему всё это нас приведёт.

Machine Learning в экологии, или где живёт снежный человек - 1

Как моделируют распространение видов

Главную идею экологического моделирования можно описать в одном абзаце:

Представьте, у вас есть питомец, кот или собака. Вы знаете, что собака любит спать на мягком коврике у окна, а кот – на тёплом подоконнике над батареей. Вы интуитивно понимаете, в каких местах им комфортно, а где им не нравится. Переводим интуицию [1] на язык статистики – вот и получилась матмодель :)

Этот подход масштабируется вплоть до всей Земли. Для его работы достаточно определить одно понятие и одну гипотезу:

  • экологическая ниша – это геоклиматические предпочтения вида (“тёплая батарея”) и отношения с другими видами (“коты едят мышей”);

  • гипотеза консервативности экологической ниши (“котам нравятся тёплые батареи и есть мышей – и они постоянны в своих вкусах”).

Machine Learning в экологии, или где живёт снежный человек - 2

Весь прошлый век биологи при описании вида фиксировали его экологическую нишу:

  • трофическая ниша: хищник, травоядный;

  • климат: тепло, холодно, влажно, сухо;

  • рельеф местообитания: горы, равнины, моря;

  • почва: песок, глина, ил;

  • растительность: лес, луг, степь;

  • и многое другое.

Биологи интуитивно чувствовали, что каждый вид нужно описывать набором таких переменных – этот подход назвали “экологическим конвертом” (похоже на кортежи в программировании, правда?) 

Появилась даже гипотеза, что эти наборы уникальные – и один “конверт” может описывать не более одного вида.

Machine Learning в экологии, или где живёт снежный человек - 3

Дальше. А что если взять все места на земле с такими же условиями – и обвести их по контуру? Получится что-то очень похожее на ареал этого вида животного/растения. А ведь эти условия могут встречаться в разных местах на Земле – на разной высоте, на разных континентах. 

Эта идея витала в воздухе весь XX век, и авторов у неё – как у радио, в каждой стране. И тут на сцену выходит…

SDM – Species distribution modelling (*)

* SDM, Species Distribution Modelling – моделирование распространения видов.

– Я построил ML-модель, которая предсказывает этому виду 1000 лет жизни!
– Но в мире осталось всего три особи. И все три – самцы…

Теоретический аппарат экологического моделирования был разработан, в целом, к началу XX века. Первые практические модели стали появляться только в 1940-е годы – и были они … ручными!

Расскажу, как специалисты по Machine learning работали до появления Machine:

Machine Learning в экологии, или где живёт снежный человек - 4

Представьте, у вас есть 20-30 сообщений о наблюдениях редкого животного. Каждое сообщение сопровождается координатами.

Этап №1: берём контурную карту – и аккуратно отмечаем на ней все наблюдения.

Этап №2: идём к метеорологам, просим у них карту изотерм – среднегодовых температур за последние, скажем, 5 лет. Накладываем нашу карту на изотермы (буквально накладываем, на просвет через стекло) – и в отдельную табличку выписываем значения температур для наших точек.

Этап №3: аналогичным образом получаем значения высот над уровнем моря. И нам очень повезло, если все три карты в одном масштабе. Если нет – штош, увидимся через неделю…

В результате получается примерно такая таблица:

Наблюдение

Широта

Долгота

Температура

Высота

1

45.95

72.18

+7.3

184

2

46.03

73.84

+7.1

253

Этап №4: переносим получившиеся данные по температуре и высоте на график:

Machine Learning в экологии, или где живёт снежный человек - 5

Этап №5: обводим результат по контуру, отбрасывая явно выбивающиеся значения.

Ура, мы получили эмпирическую экологическую нишу (ЭЭН) вида. Это грубая модель в пространстве двух факторов (температура-высота), её точность в лучшем случае могла составлять 70-75% – и всё же это лучше, чем ничего.

Метод трудоёмкий. Моделирование ниши на двух слоях для сотни наблюдений могло занять целый месяц, а до следующего этапа доходили вообще единицы:

Этап №6: берём интересующую область на карте, размечаем клетки с шагом в 1 градус (или даже 0.1градус!)  – и для каждой клетки составляем таблицу высота-температура. Если значение попадает в ЭЭН, значит, вид может встречаться в этом месте. Наносим все положительные результаты на карту – и получаем модель ареала вида. 

В домашинную эпоху такой расчёт мог занять до года, и по объёму работ тянул на докторскую. Сколько там могло быть ошибок – понятно.

Что изменилось в XXI веке?

Удачно наложились четыре фактора. Появились они ещё в конце XX века, но массовыми стали в последние 5-10 лет:

Спутники дистанционного зондирования Земли. Они составили подробные карты всей планеты – рельеф, физ и хим состав почвы, покрытие растительностью, климат, речная сеть и дороги – и множество других. Точность этих карт (т.н. “слои предикторы”) иногда измеряется в метрах!

GPS-навигаторы в каждом смартфоне. Учёные и натуралисты получили возможность фиксировать наблюдения также с метровой точностью, а не 0.01-0.1 градуса, как раньше.

Платформы для натуралистов. iNaturalist, ebird – и другие платформы сделали регистрацию/валидацию научных наблюдений максимально простой, часто в игровой форме. GBIF с 3.5 млрд наблюдений (2025) – это GitHub мира экологии.

Компьютеры и методы Machine learning. Достаточно мощные, чтобы обсчитать миллионы точек на сотнях слоёв предикторов. И происходит это за минуты, а не за годы, как раньше.

А при чём здесь ML?

На первый взгляд кажется, что для построения карты ареала достаточно методов статистики, машинное обучение [2] не нужно. Так ли это?

Вопрос справедливый. Допустим, мы взяли пачку слоёв-предикторов. Наложили точки на карту, извлекли значения из всех слоёв. Получили распределения, как на этой картинке:

Machine Learning в экологии, или где живёт снежный человек - 6

Дальше определили средние значения по каждому предиктору. Определили ширину распределения. Получили оптимальный набор переменных для каждого вида (включая допустимое отклонение). 

Отфильтровали все нужные точки на карте – всё, готово. И зачем тут учить какую-то модель, достаточно посчитать чисто средние значения и отфильтровать результаты? Pandas справится!

Проблема в том, что реальность оказывается…

Machine Learning в экологии, или где живёт снежный человек - 7

Вот типичная гистограмма. Это серая ворона, регион моделирования – Семиречье, Алматинская область.

Серым цветом дана гистограмма для высот в регионе. Минимальная высота – 300-400 метров, и чем выше – тем меньше точек с такой высотой. Логично [3].

Голубой цвет – частота встречаемости высот в точках наблюдения.

Видно, что чаще всего ворона встречается на высоте ~700 метров. И есть … ещё один пик на ~1600 метров. Два максимума? Это вообще легально?

А среднее значение тут ~1100 метров – это практически минимум распределения. Если отобрать на карте точки с высотой 1100 метров, вороны там как раз и не будет.

Machine Learning в экологии, или где живёт снежный человек - 8

Другой пример. Это белая лазоревка и количество осадков тёплого квартала. 

Если вы изучали статистику, знаете, что распределение случайных величин похоже либо на колокол (нормальное), либо плавно снижается (как “серая” высота в прошлом примере). А что если гистограмма равномерно “размазана” по всем значениям? И каково оптимальное значение на этом графике?

Экологический смысл такого графика – наш вид от этого фактора практически не зависит. Ему комфортно при любом количестве осадков, если только их не больше ~200 мм в квартал.

А что можно сказать о графике с двумя максимумами? Тут мы имеем дело либо с двумя разорванными популяциями (подвидами) – и каждая из них адаптировалась к своим условиям. Либо мы наблюдаем … миграцию. Большинство предикторов усреднены по году, а летом и зимой видам нравится разное.

Machine Learning в экологии, или где живёт снежный человек - 9

Но подождите, а как миграция сочетается с гипотезой консервативности экологической ниши? Да никак, нужно переходить от моделирования по среднегодовым факторам – к хотя бы среднемесячным. Честно говоря, и другое фундаментальное экологическое понятие (ниша) испытывает трудности при столкновении с реальностью.

– Объясните, как работают эти ваши ML-модели!
– Сначала вы дайте строгое определение экологической ниши!

И тут встаёт вопрос, а что именно мы моделируем? Это точно не экологические ниши (иногда говорят “местообитания”). Это точно не ареал.

Но задача поставлена. Вот точки наблюдения вида, вот набор геоклиматических переменных. Много входных переменных -> чёрный ящик -> результат в формате “да/нет”. Это типичная задача бинарной классификации. И не применить ли для её решения методы машинного обучения?

Как прогнозируют будущее?

Вот общий сценарий современной SDM:

  1. Собираем точки – координаты встреч животного или растения. Точки можно взять из собственных наблюдений, из научных работ – или из международных биологических баз данных, например, GBIF.org [4].

  2. Собираем слои-предикторы – высота над уровнем моря, пересечённость и уклон поверхности, среднегодовая температура, влажность, состав почвы, удалённость от речной сети и т.д.

  3. Накладываем координаты встреч на слои-предикторы. Получаем “конверты” биогеографических переменных.

  4. Учим модель предсказывать вероятность встречи вида по этим “конвертам” – получаем экологическую нишу вида (местообитание).

  5. “Проецируем” ЭЭН вида на карту – получаем ареал вида

Machine Learning в экологии, или где живёт снежный человек - 10

С определением ареала в настоящем времени примерно понятно. А как прогнозируют будущее?

Слои-предикторы делятся на две категории: 

  • статические – которые глобально не изменятся в обозримом будущем. Высота над уровнем моря, уклон, физический состав почвы, расстояние от рек и т.д.;

  • динамические – температура, влажность, осадки, солнечная радиация, скорость ветра и т.д. – эти значения усреднены за несколько лет. 

В 2021 году рабочая группа ОНН по изменению климата IPCC предложила пять наиболее вероятных сценариев до 2100 года: SSP, Shared Socioeconomic Pathways, Общие социально-экономические сценарии:

Machine Learning в экологии, или где живёт снежный человек - 11

Для каждого из этих сценариев доступен набор биоклиматических переменных [5] – предикторов с разрешением до 30 угловых секунд (примерно 1х1 км). Вообще, сценариев гораздо больше, и они разделяются на ветки, но для начала берут какую-то одну “среднюю из средних”, а дальше всё зависит от решаемых задач.

Общая логика прогнозирования ареала вида в будущем:

  • обучаем модель на статических переменных + динамические переменные для текущего периода;

  • запускаем прогноз по всей карте на тех же самых статических переменных, а динамические выбираем для будущих периодов.

Прогнозы идут пачками: 2021-2040, 2041-2060, 2061-2080 и 2081-2100. Таким образом, распространение вида можно оценить в динамике.

Например, прогноз распространения в Центральной Азии обыкновенной майны, или саранчового скворца. В списке агрессивных инвазивных видов от Международного союза охраны природы майна находится на втором месте.

Machine Learning в экологии, или где живёт снежный человек - 12

Видно, что к 2100 ареал майны увеличится на 59-242%. Также видно, что по наиболее вероятному сценарию SSP3-7.0 через пару десятилетий майна придёт в Южную Сибирь. Местным птицам от неё придётся несладко…

И зачем всё это нужно?

Подведу промежуточные итоги:

  1. С помощью SDM можно находить редких животных и растения. Биогеографические модели помогают понять, где ещё может скрываться редкий вид, в каком местообитании его искать. С помощью этого метода были обнаружены многие ранее неизвестные популяции.

  2. Гистограммы (помните как немного выше про ворону?) помогают изучить экологию и предпочтения вида, буквально не выходя из дома. Какой климат, рельеф, почва ему комфортны – и всё это с минимумом полевых исследований.

  3. SDM помогают защищать природу. С помощью моделей мы можем увидеть, какие территории важны для жизни многих видов, т.н. “горячие точки биоразнообразия” – и решить, какие из них нужно охранять. 

  4. Прогнозировать будущее видов – изменение местообитаний животных и растений, когда климат изменится. Какие местообитания могут быть утрачены – и куда “переедут” обитающие там виды. Причём SDM строит не один прогноз, а обычно целую пачку под разные сценарии.

  5. Но прогнозировать можно не только будущее. Методика позволяет “отмотать время назад” – и понять, как жили животные тысячи лет назад. Как сформировались уязвимые биотопы, например, степи. С помощью SDM можно смоделировать даже эволюцию [6] видов и целых биосистем. 

Дальнейшее развитие идей SDM

1. Учёт соседей

Коту для хорошей жизни нужен не только тёплый подоконник над батареей (местообитание), но и две мышки в день (добыча), и чтобы собаки (конкуренты) жили подальше. 

Следующий уровень – jSDM (joint) – учитывает взаимодействие между видами, точнее, моделирует их совместное распространение. В таких моделях учитываются связи между видами, например, хищник-жертва, конкуренция, симбиоз, распространение семян растений. 

Говоря на “языке SDM”, в модели для каждого вида добавляется распространение других видов как слои-предикторы.

Дальнейшее развитие jSDM:

  • clSDM – Community-level species distribution modelling – фокусируется на целых сообществах, а не на отдельных видах;

  • MCM – Metacommunity modelling – как локальные сообщества видов связаны друг с другом через миграцию и как эти связи влияют на их распространение и разнообразие.

Machine Learning в экологии, или где живёт снежный человек - 13

2. Оценка численности видов

PAE – Population Abundance Estimation, DAM – Density/Abundance Modelling.

Тут сразу три метода:

  • IPM – Integrated Population Models – объединяет данные о пространственном распределении, обнаружении/необнаружении, чтобы одновременно оценить численность, популяционные параметры (рождаемость/смертность) и их связь с окружающей средой;

  • DS/OM – Distance Sampling with occupancy models – тут дистанционная выборка (distance sampling) используется для оценки плотности популяции (density) на основе наблюдаемых расстояний до особей, а модель занятости (occupancy) используется для учёта вероятности обнаружения вида, что повышает точность оценки численности;

  • RSF – Resource Selection Functions, HUM – Habitat Use Models с оценкой численности – эти методы моделируют выбор местообитаний и ресурсный баланс, давая оценку “энергетическими” методами.

Machine Learning в экологии, или где живёт снежный человек - 14

3. Учёт эволюции

Как виды могут приспосабливаться к меняющимся условиям, например, климату?

ASDM – Adaptive SDM, ESDM – Evolutionary SDM.

Эти методы расширяют SDM, включая в себя процессы естественного отбора и эволюции. Они пытаются спрогнозировать, как изменения окружающей среды (климат, ландшафт) могут привести к изменениям физиологических или поведенческих характеристик видов (адаптациям), что, в свою очередь, повлияет на их экологические ниши и на их распространение.

Методы включают в себя моделирование пластичности и эволюции признаков. И, как и все методы экологического моделирования, могут работать “назад” во времени.

Machine Learning в экологии, или где живёт снежный человек - 15

4. Продвинутые модели прогнозирования будущего

MSDM – Mechanistic Species Distribution Modelling – в дополнение к традиционным методам SDM пытается моделировать прямые причинно-следственные связи между условиями окружающей среды и жизнедеятельностью организмов. 

DSDM – Dynamic Species Distribution Modelling – учитывают динамику популяций, включая рождаемость, смертность, миграцию, а также изменения среды во времени. Эти модели позволяют оценить скорость адаптации и мобильность видов.

5. Помощь в сохранении видов

Эти методы нельзя назвать развитием SDM, однако, результаты SDM часто используются в моделях природоохранной деятельности:

  • VAM – Vulnerability assessment modelling – оценка уязвимости видов к конкретным угрозам;

  • SM – Scenario modelling – моделирование различных сценариев и мер (изменение землепользования, эффективности природоохранных мер) для оценки их влияния на сохранение видов;

  • CPS – Conservation planning software – модели и целые программные комплексы для планирования и приоритезации действий в природоохранной биологии.

В общем, матмоделирование в последние годы здорово помогает биологам, особенно в плане обоснования природоохранных мер. 

Фактически, эти методы позволили перейти от простого картирования ареалов к пониманию экологических процессов в цифрах – и их влиянию на биоразнообразие.

Сейчас я разрабатываю “SDM для всех” – программный комплекс, где любой желающий может за несколько минут смоделировать ареал интересующего вида. Ресурс открыт и доступен через браузер [7]. Код опубликован в github [8] как библиотека для языка Python, его можно запустить локально.

Постараюсь подробно ответить на вопросы по биогеографическому моделированию.

PS. Где же живёт снежный человек?

В США есть организация свидетелей Бигфута – местного снежного человека. Они задались целью собрать все точки наблюдений Бигфута от очевидцев.

Machine Learning в экологии, или где живёт снежный человек - 16

Группа учёных попробовала обучить смоделировать ареал Бигфута на основании этих точек. Вывод у них политкорректный: ареал Бигфута удивительно совпадает с ареалом одного широко известного животного [9]

Так свидетели Бигфута поучаствовали в научном доказательстве, что его не существует.

Автор: kaichou

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/24128

URLs in this post:

[1] интуицию: http://www.braintools.ru/article/6929

[2] обучение: http://www.braintools.ru/article/5125

[3] Логично: http://www.braintools.ru/article/7640

[4] GBIF.org: http://GBIF.org

[5] доступен набор биоклиматических переменных: https://www.worldclim.org/data/cmip6/cmip6_clim30s.html

[6] эволюцию: http://www.braintools.ru/article/7702

[7] доступен через браузер: https://wingeds.world/sdm

[8] в github: https://github.com/mad-kiba/python-sdm

[9] одного широко известного животного: https://www.researchgate.net/publication/216763696_Predicting_the_Distribution_of_Sasquatch_in_Western_North_America_Anything_Goes_with_Ecological_Niche_Modelling

[10] Источник: https://habr.com/ru/articles/983756/?utm_campaign=983756&utm_source=habrahabr&utm_medium=rss

www.BrainTools.ru

Rambler's Top100