Machine Learning в экологии, или где живёт снежный человек. machine learning.. machine learning. ml.. machine learning. ml. python.. machine learning. ml. python. SDM.. machine learning. ml. python. SDM. биогеография.. machine learning. ml. python. SDM. биогеография. экологические модели.

В экологии происходит настоящая ML-революция. 

Число публикаций с использованием матмоделирования растёт по закону Мура, а наличие ML-моделей и прогнозов становится стандартом в статьях про биологические виды и их будущее.

Появились модели, предсказывающие распространение видов в пространстве и во времени – на 100 лет вперёд или на 6000 лет назад. Экологи начали моделировать взаимодействие видов, сообществ – и целых экосистем. 

Расскажу, почему это произошло, как работают такие модели на практике – и к чему всё это нас приведёт.

Machine Learning в экологии, или где живёт снежный человек - 1

Как моделируют распространение видов

Главную идею экологического моделирования можно описать в одном абзаце:

Представьте, у вас есть питомец, кот или собака. Вы знаете, что собака любит спать на мягком коврике у окна, а кот – на тёплом подоконнике над батареей. Вы интуитивно понимаете, в каких местах им комфортно, а где им не нравится. Переводим интуицию на язык статистики – вот и получилась матмодель :)

Этот подход масштабируется вплоть до всей Земли. Для его работы достаточно определить одно понятие и одну гипотезу:

  • экологическая ниша – это геоклиматические предпочтения вида (“тёплая батарея”) и отношения с другими видами (“коты едят мышей”);

  • гипотеза консервативности экологической ниши (“котам нравятся тёплые батареи и есть мышей – и они постоянны в своих вкусах”).

Machine Learning в экологии, или где живёт снежный человек - 2

Весь прошлый век биологи при описании вида фиксировали его экологическую нишу:

  • трофическая ниша: хищник, травоядный;

  • климат: тепло, холодно, влажно, сухо;

  • рельеф местообитания: горы, равнины, моря;

  • почва: песок, глина, ил;

  • растительность: лес, луг, степь;

  • и многое другое.

Биологи интуитивно чувствовали, что каждый вид нужно описывать набором таких переменных – этот подход назвали “экологическим конвертом” (похоже на кортежи в программировании, правда?) 

Появилась даже гипотеза, что эти наборы уникальные – и один “конверт” может описывать не более одного вида.

Machine Learning в экологии, или где живёт снежный человек - 3

Дальше. А что если взять все места на земле с такими же условиями – и обвести их по контуру? Получится что-то очень похожее на ареал этого вида животного/растения. А ведь эти условия могут встречаться в разных местах на Земле – на разной высоте, на разных континентах. 

Эта идея витала в воздухе весь XX век, и авторов у неё – как у радио, в каждой стране. И тут на сцену выходит…

SDM – Species distribution modelling (*)

* SDM, Species Distribution Modelling – моделирование распространения видов.

– Я построил ML-модель, которая предсказывает этому виду 1000 лет жизни!
– Но в мире осталось всего три особи. И все три – самцы…

Теоретический аппарат экологического моделирования был разработан, в целом, к началу XX века. Первые практические модели стали появляться только в 1940-е годы – и были они … ручными!

Расскажу, как специалисты по Machine learning работали до появления Machine:

Machine Learning в экологии, или где живёт снежный человек - 4

Представьте, у вас есть 20-30 сообщений о наблюдениях редкого животного. Каждое сообщение сопровождается координатами.

Этап №1: берём контурную карту – и аккуратно отмечаем на ней все наблюдения.

Этап №2: идём к метеорологам, просим у них карту изотерм – среднегодовых температур за последние, скажем, 5 лет. Накладываем нашу карту на изотермы (буквально накладываем, на просвет через стекло) – и в отдельную табличку выписываем значения температур для наших точек.

Этап №3: аналогичным образом получаем значения высот над уровнем моря. И нам очень повезло, если все три карты в одном масштабе. Если нет – штош, увидимся через неделю…

В результате получается примерно такая таблица:

Наблюдение

Широта

Долгота

Температура

Высота

1

45.95

72.18

+7.3

184

2

46.03

73.84

+7.1

253

Этап №4: переносим получившиеся данные по температуре и высоте на график:

Machine Learning в экологии, или где живёт снежный человек - 5

Этап №5: обводим результат по контуру, отбрасывая явно выбивающиеся значения.

Ура, мы получили эмпирическую экологическую нишу (ЭЭН) вида. Это грубая модель в пространстве двух факторов (температура-высота), её точность в лучшем случае могла составлять 70-75% – и всё же это лучше, чем ничего.

Метод трудоёмкий. Моделирование ниши на двух слоях для сотни наблюдений могло занять целый месяц, а до следующего этапа доходили вообще единицы:

Этап №6: берём интересующую область на карте, размечаем клетки с шагом в 1 градус (или даже 0.1градус!)  – и для каждой клетки составляем таблицу высота-температура. Если значение попадает в ЭЭН, значит, вид может встречаться в этом месте. Наносим все положительные результаты на карту – и получаем модель ареала вида. 

В домашинную эпоху такой расчёт мог занять до года, и по объёму работ тянул на докторскую. Сколько там могло быть ошибок – понятно.

Что изменилось в XXI веке?

Удачно наложились четыре фактора. Появились они ещё в конце XX века, но массовыми стали в последние 5-10 лет:

Спутники дистанционного зондирования Земли. Они составили подробные карты всей планеты – рельеф, физ и хим состав почвы, покрытие растительностью, климат, речная сеть и дороги – и множество других. Точность этих карт (т.н. “слои предикторы”) иногда измеряется в метрах!

GPS-навигаторы в каждом смартфоне. Учёные и натуралисты получили возможность фиксировать наблюдения также с метровой точностью, а не 0.01-0.1 градуса, как раньше.

Платформы для натуралистов. iNaturalist, ebird – и другие платформы сделали регистрацию/валидацию научных наблюдений максимально простой, часто в игровой форме. GBIF с 3.5 млрд наблюдений (2025) – это GitHub мира экологии.

Компьютеры и методы Machine learning. Достаточно мощные, чтобы обсчитать миллионы точек на сотнях слоёв предикторов. И происходит это за минуты, а не за годы, как раньше.

А при чём здесь ML?

На первый взгляд кажется, что для построения карты ареала достаточно методов статистики, машинное обучение не нужно. Так ли это?

Вопрос справедливый. Допустим, мы взяли пачку слоёв-предикторов. Наложили точки на карту, извлекли значения из всех слоёв. Получили распределения, как на этой картинке:

Machine Learning в экологии, или где живёт снежный человек - 6

Дальше определили средние значения по каждому предиктору. Определили ширину распределения. Получили оптимальный набор переменных для каждого вида (включая допустимое отклонение). 

Отфильтровали все нужные точки на карте – всё, готово. И зачем тут учить какую-то модель, достаточно посчитать чисто средние значения и отфильтровать результаты? Pandas справится!

Проблема в том, что реальность оказывается…

Machine Learning в экологии, или где живёт снежный человек - 7

Вот типичная гистограмма. Это серая ворона, регион моделирования – Семиречье, Алматинская область.

Серым цветом дана гистограмма для высот в регионе. Минимальная высота – 300-400 метров, и чем выше – тем меньше точек с такой высотой. Логично.

Голубой цвет – частота встречаемости высот в точках наблюдения.

Видно, что чаще всего ворона встречается на высоте ~700 метров. И есть … ещё один пик на ~1600 метров. Два максимума? Это вообще легально?

А среднее значение тут ~1100 метров – это практически минимум распределения. Если отобрать на карте точки с высотой 1100 метров, вороны там как раз и не будет.

Machine Learning в экологии, или где живёт снежный человек - 8

Другой пример. Это белая лазоревка и количество осадков тёплого квартала. 

Если вы изучали статистику, знаете, что распределение случайных величин похоже либо на колокол (нормальное), либо плавно снижается (как “серая” высота в прошлом примере). А что если гистограмма равномерно “размазана” по всем значениям? И каково оптимальное значение на этом графике?

Экологический смысл такого графика – наш вид от этого фактора практически не зависит. Ему комфортно при любом количестве осадков, если только их не больше ~200 мм в квартал.

А что можно сказать о графике с двумя максимумами? Тут мы имеем дело либо с двумя разорванными популяциями (подвидами) – и каждая из них адаптировалась к своим условиям. Либо мы наблюдаем … миграцию. Большинство предикторов усреднены по году, а летом и зимой видам нравится разное.

Machine Learning в экологии, или где живёт снежный человек - 9

Но подождите, а как миграция сочетается с гипотезой консервативности экологической ниши? Да никак, нужно переходить от моделирования по среднегодовым факторам – к хотя бы среднемесячным. Честно говоря, и другое фундаментальное экологическое понятие (ниша) испытывает трудности при столкновении с реальностью.

– Объясните, как работают эти ваши ML-модели!
– Сначала вы дайте строгое определение экологической ниши!

И тут встаёт вопрос, а что именно мы моделируем? Это точно не экологические ниши (иногда говорят “местообитания”). Это точно не ареал.

Но задача поставлена. Вот точки наблюдения вида, вот набор геоклиматических переменных. Много входных переменных -> чёрный ящик -> результат в формате “да/нет”. Это типичная задача бинарной классификации. И не применить ли для её решения методы машинного обучения?

Как прогнозируют будущее?

Вот общий сценарий современной SDM:

  1. Собираем точки – координаты встреч животного или растения. Точки можно взять из собственных наблюдений, из научных работ – или из международных биологических баз данных, например, GBIF.org.

  2. Собираем слои-предикторы – высота над уровнем моря, пересечённость и уклон поверхности, среднегодовая температура, влажность, состав почвы, удалённость от речной сети и т.д.

  3. Накладываем координаты встреч на слои-предикторы. Получаем “конверты” биогеографических переменных.

  4. Учим модель предсказывать вероятность встречи вида по этим “конвертам” – получаем экологическую нишу вида (местообитание).

  5. “Проецируем” ЭЭН вида на карту – получаем ареал вида

Machine Learning в экологии, или где живёт снежный человек - 10

С определением ареала в настоящем времени примерно понятно. А как прогнозируют будущее?

Слои-предикторы делятся на две категории: 

  • статические – которые глобально не изменятся в обозримом будущем. Высота над уровнем моря, уклон, физический состав почвы, расстояние от рек и т.д.;

  • динамические – температура, влажность, осадки, солнечная радиация, скорость ветра и т.д. – эти значения усреднены за несколько лет. 

В 2021 году рабочая группа ОНН по изменению климата IPCC предложила пять наиболее вероятных сценариев до 2100 года: SSP, Shared Socioeconomic Pathways, Общие социально-экономические сценарии:

Machine Learning в экологии, или где живёт снежный человек - 11

Для каждого из этих сценариев доступен набор биоклиматических переменных – предикторов с разрешением до 30 угловых секунд (примерно 1х1 км). Вообще, сценариев гораздо больше, и они разделяются на ветки, но для начала берут какую-то одну “среднюю из средних”, а дальше всё зависит от решаемых задач.

Общая логика прогнозирования ареала вида в будущем:

  • обучаем модель на статических переменных + динамические переменные для текущего периода;

  • запускаем прогноз по всей карте на тех же самых статических переменных, а динамические выбираем для будущих периодов.

Прогнозы идут пачками: 2021-2040, 2041-2060, 2061-2080 и 2081-2100. Таким образом, распространение вида можно оценить в динамике.

Например, прогноз распространения в Центральной Азии обыкновенной майны, или саранчового скворца. В списке агрессивных инвазивных видов от Международного союза охраны природы майна находится на втором месте.

Machine Learning в экологии, или где живёт снежный человек - 12

Видно, что к 2100 ареал майны увеличится на 59-242%. Также видно, что по наиболее вероятному сценарию SSP3-7.0 через пару десятилетий майна придёт в Южную Сибирь. Местным птицам от неё придётся несладко…

И зачем всё это нужно?

Подведу промежуточные итоги:

  1. С помощью SDM можно находить редких животных и растения. Биогеографические модели помогают понять, где ещё может скрываться редкий вид, в каком местообитании его искать. С помощью этого метода были обнаружены многие ранее неизвестные популяции.

  2. Гистограммы (помните как немного выше про ворону?) помогают изучить экологию и предпочтения вида, буквально не выходя из дома. Какой климат, рельеф, почва ему комфортны – и всё это с минимумом полевых исследований.

  3. SDM помогают защищать природу. С помощью моделей мы можем увидеть, какие территории важны для жизни многих видов, т.н. “горячие точки биоразнообразия” – и решить, какие из них нужно охранять. 

  4. Прогнозировать будущее видов – изменение местообитаний животных и растений, когда климат изменится. Какие местообитания могут быть утрачены – и куда “переедут” обитающие там виды. Причём SDM строит не один прогноз, а обычно целую пачку под разные сценарии.

  5. Но прогнозировать можно не только будущее. Методика позволяет “отмотать время назад” – и понять, как жили животные тысячи лет назад. Как сформировались уязвимые биотопы, например, степи. С помощью SDM можно смоделировать даже эволюцию видов и целых биосистем. 

Дальнейшее развитие идей SDM

1. Учёт соседей

Коту для хорошей жизни нужен не только тёплый подоконник над батареей (местообитание), но и две мышки в день (добыча), и чтобы собаки (конкуренты) жили подальше. 

Следующий уровень – jSDM (joint) – учитывает взаимодействие между видами, точнее, моделирует их совместное распространение. В таких моделях учитываются связи между видами, например, хищник-жертва, конкуренция, симбиоз, распространение семян растений. 

Говоря на “языке SDM”, в модели для каждого вида добавляется распространение других видов как слои-предикторы.

Дальнейшее развитие jSDM:

  • clSDM – Community-level species distribution modelling – фокусируется на целых сообществах, а не на отдельных видах;

  • MCM – Metacommunity modelling – как локальные сообщества видов связаны друг с другом через миграцию и как эти связи влияют на их распространение и разнообразие.

Machine Learning в экологии, или где живёт снежный человек - 13

2. Оценка численности видов

PAE – Population Abundance Estimation, DAM – Density/Abundance Modelling.

Тут сразу три метода:

  • IPM – Integrated Population Models – объединяет данные о пространственном распределении, обнаружении/необнаружении, чтобы одновременно оценить численность, популяционные параметры (рождаемость/смертность) и их связь с окружающей средой;

  • DS/OM – Distance Sampling with occupancy models – тут дистанционная выборка (distance sampling) используется для оценки плотности популяции (density) на основе наблюдаемых расстояний до особей, а модель занятости (occupancy) используется для учёта вероятности обнаружения вида, что повышает точность оценки численности;

  • RSF – Resource Selection Functions, HUM – Habitat Use Models с оценкой численности – эти методы моделируют выбор местообитаний и ресурсный баланс, давая оценку “энергетическими” методами.

Machine Learning в экологии, или где живёт снежный человек - 14

3. Учёт эволюции

Как виды могут приспосабливаться к меняющимся условиям, например, климату?

ASDM – Adaptive SDM, ESDM – Evolutionary SDM.

Эти методы расширяют SDM, включая в себя процессы естественного отбора и эволюции. Они пытаются спрогнозировать, как изменения окружающей среды (климат, ландшафт) могут привести к изменениям физиологических или поведенческих характеристик видов (адаптациям), что, в свою очередь, повлияет на их экологические ниши и на их распространение.

Методы включают в себя моделирование пластичности и эволюции признаков. И, как и все методы экологического моделирования, могут работать “назад” во времени.

Machine Learning в экологии, или где живёт снежный человек - 15

4. Продвинутые модели прогнозирования будущего

MSDM – Mechanistic Species Distribution Modelling – в дополнение к традиционным методам SDM пытается моделировать прямые причинно-следственные связи между условиями окружающей среды и жизнедеятельностью организмов. 

DSDM – Dynamic Species Distribution Modelling – учитывают динамику популяций, включая рождаемость, смертность, миграцию, а также изменения среды во времени. Эти модели позволяют оценить скорость адаптации и мобильность видов.

5. Помощь в сохранении видов

Эти методы нельзя назвать развитием SDM, однако, результаты SDM часто используются в моделях природоохранной деятельности:

  • VAM – Vulnerability assessment modelling – оценка уязвимости видов к конкретным угрозам;

  • SM – Scenario modelling – моделирование различных сценариев и мер (изменение землепользования, эффективности природоохранных мер) для оценки их влияния на сохранение видов;

  • CPS – Conservation planning software – модели и целые программные комплексы для планирования и приоритезации действий в природоохранной биологии.

В общем, матмоделирование в последние годы здорово помогает биологам, особенно в плане обоснования природоохранных мер. 

Фактически, эти методы позволили перейти от простого картирования ареалов к пониманию экологических процессов в цифрах – и их влиянию на биоразнообразие.

Сейчас я разрабатываю “SDM для всех” – программный комплекс, где любой желающий может за несколько минут смоделировать ареал интересующего вида. Ресурс открыт и доступен через браузер. Код опубликован в github как библиотека для языка Python, его можно запустить локально.

Постараюсь подробно ответить на вопросы по биогеографическому моделированию.

PS. Где же живёт снежный человек?

В США есть организация свидетелей Бигфута – местного снежного человека. Они задались целью собрать все точки наблюдений Бигфута от очевидцев.

Machine Learning в экологии, или где живёт снежный человек - 16

Группа учёных попробовала обучить смоделировать ареал Бигфута на основании этих точек. Вывод у них политкорректный: ареал Бигфута удивительно совпадает с ареалом одного широко известного животного

Так свидетели Бигфута поучаствовали в научном доказательстве, что его не существует.

Автор: kaichou

Источник

Rambler's Top100