В экологии происходит настоящая ML-революция.
Число публикаций с использованием матмоделирования растёт по закону Мура, а наличие ML-моделей и прогнозов становится стандартом в статьях про биологические виды и их будущее.
Появились модели, предсказывающие распространение видов в пространстве и во времени – на 100 лет вперёд или на 6000 лет назад. Экологи начали моделировать взаимодействие видов, сообществ – и целых экосистем.
Расскажу, почему это произошло, как работают такие модели на практике – и к чему всё это нас приведёт.

Как моделируют распространение видов
Главную идею экологического моделирования можно описать в одном абзаце:
Представьте, у вас есть питомец, кот или собака. Вы знаете, что собака любит спать на мягком коврике у окна, а кот – на тёплом подоконнике над батареей. Вы интуитивно понимаете, в каких местах им комфортно, а где им не нравится. Переводим интуицию на язык статистики – вот и получилась матмодель :)
Этот подход масштабируется вплоть до всей Земли. Для его работы достаточно определить одно понятие и одну гипотезу:
-
экологическая ниша – это геоклиматические предпочтения вида (“тёплая батарея”) и отношения с другими видами (“коты едят мышей”);
-
гипотеза консервативности экологической ниши (“котам нравятся тёплые батареи и есть мышей – и они постоянны в своих вкусах”).

Весь прошлый век биологи при описании вида фиксировали его экологическую нишу:
-
трофическая ниша: хищник, травоядный;
-
климат: тепло, холодно, влажно, сухо;
-
рельеф местообитания: горы, равнины, моря;
-
почва: песок, глина, ил;
-
растительность: лес, луг, степь;
-
и многое другое.
Биологи интуитивно чувствовали, что каждый вид нужно описывать набором таких переменных – этот подход назвали “экологическим конвертом” (похоже на кортежи в программировании, правда?)
Появилась даже гипотеза, что эти наборы уникальные – и один “конверт” может описывать не более одного вида.

Дальше. А что если взять все места на земле с такими же условиями – и обвести их по контуру? Получится что-то очень похожее на ареал этого вида животного/растения. А ведь эти условия могут встречаться в разных местах на Земле – на разной высоте, на разных континентах.
Эта идея витала в воздухе весь XX век, и авторов у неё – как у радио, в каждой стране. И тут на сцену выходит…
SDM – Species distribution modelling (*)
* SDM, Species Distribution Modelling – моделирование распространения видов.
– Я построил ML-модель, которая предсказывает этому виду 1000 лет жизни!
– Но в мире осталось всего три особи. И все три – самцы…
Теоретический аппарат экологического моделирования был разработан, в целом, к началу XX века. Первые практические модели стали появляться только в 1940-е годы – и были они … ручными!
Расскажу, как специалисты по Machine learning работали до появления Machine:

Представьте, у вас есть 20-30 сообщений о наблюдениях редкого животного. Каждое сообщение сопровождается координатами.
Этап №1: берём контурную карту – и аккуратно отмечаем на ней все наблюдения.
Этап №2: идём к метеорологам, просим у них карту изотерм – среднегодовых температур за последние, скажем, 5 лет. Накладываем нашу карту на изотермы (буквально накладываем, на просвет через стекло) – и в отдельную табличку выписываем значения температур для наших точек.
Этап №3: аналогичным образом получаем значения высот над уровнем моря. И нам очень повезло, если все три карты в одном масштабе. Если нет – штош, увидимся через неделю…
В результате получается примерно такая таблица:
|
Наблюдение |
Широта |
Долгота |
Температура |
Высота |
|
1 |
45.95 |
72.18 |
+7.3 |
184 |
|
2 |
46.03 |
73.84 |
+7.1 |
253 |
Этап №4: переносим получившиеся данные по температуре и высоте на график:

Этап №5: обводим результат по контуру, отбрасывая явно выбивающиеся значения.
Ура, мы получили эмпирическую экологическую нишу (ЭЭН) вида. Это грубая модель в пространстве двух факторов (температура-высота), её точность в лучшем случае могла составлять 70-75% – и всё же это лучше, чем ничего.
Метод трудоёмкий. Моделирование ниши на двух слоях для сотни наблюдений могло занять целый месяц, а до следующего этапа доходили вообще единицы:
Этап №6: берём интересующую область на карте, размечаем клетки с шагом в 1 градус (или даже 0.1градус!) – и для каждой клетки составляем таблицу высота-температура. Если значение попадает в ЭЭН, значит, вид может встречаться в этом месте. Наносим все положительные результаты на карту – и получаем модель ареала вида.
В домашинную эпоху такой расчёт мог занять до года, и по объёму работ тянул на докторскую. Сколько там могло быть ошибок – понятно.
Что изменилось в XXI веке?
Удачно наложились четыре фактора. Появились они ещё в конце XX века, но массовыми стали в последние 5-10 лет:
Спутники дистанционного зондирования Земли. Они составили подробные карты всей планеты – рельеф, физ и хим состав почвы, покрытие растительностью, климат, речная сеть и дороги – и множество других. Точность этих карт (т.н. “слои предикторы”) иногда измеряется в метрах!
GPS-навигаторы в каждом смартфоне. Учёные и натуралисты получили возможность фиксировать наблюдения также с метровой точностью, а не 0.01-0.1 градуса, как раньше.
Платформы для натуралистов. iNaturalist, ebird – и другие платформы сделали регистрацию/валидацию научных наблюдений максимально простой, часто в игровой форме. GBIF с 3.5 млрд наблюдений (2025) – это GitHub мира экологии.
Компьютеры и методы Machine learning. Достаточно мощные, чтобы обсчитать миллионы точек на сотнях слоёв предикторов. И происходит это за минуты, а не за годы, как раньше.
А при чём здесь ML?
На первый взгляд кажется, что для построения карты ареала достаточно методов статистики, машинное обучение не нужно. Так ли это?
Вопрос справедливый. Допустим, мы взяли пачку слоёв-предикторов. Наложили точки на карту, извлекли значения из всех слоёв. Получили распределения, как на этой картинке:

Дальше определили средние значения по каждому предиктору. Определили ширину распределения. Получили оптимальный набор переменных для каждого вида (включая допустимое отклонение).
Отфильтровали все нужные точки на карте – всё, готово. И зачем тут учить какую-то модель, достаточно посчитать чисто средние значения и отфильтровать результаты? Pandas справится!
Проблема в том, что реальность оказывается…

Вот типичная гистограмма. Это серая ворона, регион моделирования – Семиречье, Алматинская область.
Серым цветом дана гистограмма для высот в регионе. Минимальная высота – 300-400 метров, и чем выше – тем меньше точек с такой высотой. Логично.
Голубой цвет – частота встречаемости высот в точках наблюдения.
Видно, что чаще всего ворона встречается на высоте ~700 метров. И есть … ещё один пик на ~1600 метров. Два максимума? Это вообще легально?
А среднее значение тут ~1100 метров – это практически минимум распределения. Если отобрать на карте точки с высотой 1100 метров, вороны там как раз и не будет.

Другой пример. Это белая лазоревка и количество осадков тёплого квартала.
Если вы изучали статистику, знаете, что распределение случайных величин похоже либо на колокол (нормальное), либо плавно снижается (как “серая” высота в прошлом примере). А что если гистограмма равномерно “размазана” по всем значениям? И каково оптимальное значение на этом графике?
Экологический смысл такого графика – наш вид от этого фактора практически не зависит. Ему комфортно при любом количестве осадков, если только их не больше ~200 мм в квартал.
А что можно сказать о графике с двумя максимумами? Тут мы имеем дело либо с двумя разорванными популяциями (подвидами) – и каждая из них адаптировалась к своим условиям. Либо мы наблюдаем … миграцию. Большинство предикторов усреднены по году, а летом и зимой видам нравится разное.

Но подождите, а как миграция сочетается с гипотезой консервативности экологической ниши? Да никак, нужно переходить от моделирования по среднегодовым факторам – к хотя бы среднемесячным. Честно говоря, и другое фундаментальное экологическое понятие (ниша) испытывает трудности при столкновении с реальностью.
– Объясните, как работают эти ваши ML-модели!
– Сначала вы дайте строгое определение экологической ниши!
И тут встаёт вопрос, а что именно мы моделируем? Это точно не экологические ниши (иногда говорят “местообитания”). Это точно не ареал.
Но задача поставлена. Вот точки наблюдения вида, вот набор геоклиматических переменных. Много входных переменных -> чёрный ящик -> результат в формате “да/нет”. Это типичная задача бинарной классификации. И не применить ли для её решения методы машинного обучения?
Как прогнозируют будущее?
Вот общий сценарий современной SDM:
-
Собираем точки – координаты встреч животного или растения. Точки можно взять из собственных наблюдений, из научных работ – или из международных биологических баз данных, например, GBIF.org.
-
Собираем слои-предикторы – высота над уровнем моря, пересечённость и уклон поверхности, среднегодовая температура, влажность, состав почвы, удалённость от речной сети и т.д.
-
Накладываем координаты встреч на слои-предикторы. Получаем “конверты” биогеографических переменных.
-
Учим модель предсказывать вероятность встречи вида по этим “конвертам” – получаем экологическую нишу вида (местообитание).
-
“Проецируем” ЭЭН вида на карту – получаем ареал вида

С определением ареала в настоящем времени примерно понятно. А как прогнозируют будущее?
Слои-предикторы делятся на две категории:
-
статические – которые глобально не изменятся в обозримом будущем. Высота над уровнем моря, уклон, физический состав почвы, расстояние от рек и т.д.;
-
динамические – температура, влажность, осадки, солнечная радиация, скорость ветра и т.д. – эти значения усреднены за несколько лет.
В 2021 году рабочая группа ОНН по изменению климата IPCC предложила пять наиболее вероятных сценариев до 2100 года: SSP, Shared Socioeconomic Pathways, Общие социально-экономические сценарии:

Для каждого из этих сценариев доступен набор биоклиматических переменных – предикторов с разрешением до 30 угловых секунд (примерно 1х1 км). Вообще, сценариев гораздо больше, и они разделяются на ветки, но для начала берут какую-то одну “среднюю из средних”, а дальше всё зависит от решаемых задач.
Общая логика прогнозирования ареала вида в будущем:
-
обучаем модель на статических переменных + динамические переменные для текущего периода;
-
запускаем прогноз по всей карте на тех же самых статических переменных, а динамические выбираем для будущих периодов.
Прогнозы идут пачками: 2021-2040, 2041-2060, 2061-2080 и 2081-2100. Таким образом, распространение вида можно оценить в динамике.
Например, прогноз распространения в Центральной Азии обыкновенной майны, или саранчового скворца. В списке агрессивных инвазивных видов от Международного союза охраны природы майна находится на втором месте.

Видно, что к 2100 ареал майны увеличится на 59-242%. Также видно, что по наиболее вероятному сценарию SSP3-7.0 через пару десятилетий майна придёт в Южную Сибирь. Местным птицам от неё придётся несладко…
И зачем всё это нужно?
Подведу промежуточные итоги:
-
С помощью SDM можно находить редких животных и растения. Биогеографические модели помогают понять, где ещё может скрываться редкий вид, в каком местообитании его искать. С помощью этого метода были обнаружены многие ранее неизвестные популяции.
-
Гистограммы (помните как немного выше про ворону?) помогают изучить экологию и предпочтения вида, буквально не выходя из дома. Какой климат, рельеф, почва ему комфортны – и всё это с минимумом полевых исследований.
-
SDM помогают защищать природу. С помощью моделей мы можем увидеть, какие территории важны для жизни многих видов, т.н. “горячие точки биоразнообразия” – и решить, какие из них нужно охранять.
-
Прогнозировать будущее видов – изменение местообитаний животных и растений, когда климат изменится. Какие местообитания могут быть утрачены – и куда “переедут” обитающие там виды. Причём SDM строит не один прогноз, а обычно целую пачку под разные сценарии.
-
Но прогнозировать можно не только будущее. Методика позволяет “отмотать время назад” – и понять, как жили животные тысячи лет назад. Как сформировались уязвимые биотопы, например, степи. С помощью SDM можно смоделировать даже эволюцию видов и целых биосистем.
Дальнейшее развитие идей SDM
1. Учёт соседей
Коту для хорошей жизни нужен не только тёплый подоконник над батареей (местообитание), но и две мышки в день (добыча), и чтобы собаки (конкуренты) жили подальше.
Следующий уровень – jSDM (joint) – учитывает взаимодействие между видами, точнее, моделирует их совместное распространение. В таких моделях учитываются связи между видами, например, хищник-жертва, конкуренция, симбиоз, распространение семян растений.
Говоря на “языке SDM”, в модели для каждого вида добавляется распространение других видов как слои-предикторы.
Дальнейшее развитие jSDM:
-
clSDM – Community-level species distribution modelling – фокусируется на целых сообществах, а не на отдельных видах;
-
MCM – Metacommunity modelling – как локальные сообщества видов связаны друг с другом через миграцию и как эти связи влияют на их распространение и разнообразие.

2. Оценка численности видов
PAE – Population Abundance Estimation, DAM – Density/Abundance Modelling.
Тут сразу три метода:
-
IPM – Integrated Population Models – объединяет данные о пространственном распределении, обнаружении/необнаружении, чтобы одновременно оценить численность, популяционные параметры (рождаемость/смертность) и их связь с окружающей средой;
-
DS/OM – Distance Sampling with occupancy models – тут дистанционная выборка (distance sampling) используется для оценки плотности популяции (density) на основе наблюдаемых расстояний до особей, а модель занятости (occupancy) используется для учёта вероятности обнаружения вида, что повышает точность оценки численности;
-
RSF – Resource Selection Functions, HUM – Habitat Use Models с оценкой численности – эти методы моделируют выбор местообитаний и ресурсный баланс, давая оценку “энергетическими” методами.

3. Учёт эволюции
Как виды могут приспосабливаться к меняющимся условиям, например, климату?
ASDM – Adaptive SDM, ESDM – Evolutionary SDM.
Эти методы расширяют SDM, включая в себя процессы естественного отбора и эволюции. Они пытаются спрогнозировать, как изменения окружающей среды (климат, ландшафт) могут привести к изменениям физиологических или поведенческих характеристик видов (адаптациям), что, в свою очередь, повлияет на их экологические ниши и на их распространение.
Методы включают в себя моделирование пластичности и эволюции признаков. И, как и все методы экологического моделирования, могут работать “назад” во времени.

4. Продвинутые модели прогнозирования будущего
MSDM – Mechanistic Species Distribution Modelling – в дополнение к традиционным методам SDM пытается моделировать прямые причинно-следственные связи между условиями окружающей среды и жизнедеятельностью организмов.
DSDM – Dynamic Species Distribution Modelling – учитывают динамику популяций, включая рождаемость, смертность, миграцию, а также изменения среды во времени. Эти модели позволяют оценить скорость адаптации и мобильность видов.
5. Помощь в сохранении видов
Эти методы нельзя назвать развитием SDM, однако, результаты SDM часто используются в моделях природоохранной деятельности:
-
VAM – Vulnerability assessment modelling – оценка уязвимости видов к конкретным угрозам;
-
SM – Scenario modelling – моделирование различных сценариев и мер (изменение землепользования, эффективности природоохранных мер) для оценки их влияния на сохранение видов;
-
CPS – Conservation planning software – модели и целые программные комплексы для планирования и приоритезации действий в природоохранной биологии.
В общем, матмоделирование в последние годы здорово помогает биологам, особенно в плане обоснования природоохранных мер.
Фактически, эти методы позволили перейти от простого картирования ареалов к пониманию экологических процессов в цифрах – и их влиянию на биоразнообразие.
Сейчас я разрабатываю “SDM для всех” – программный комплекс, где любой желающий может за несколько минут смоделировать ареал интересующего вида. Ресурс открыт и доступен через браузер. Код опубликован в github как библиотека для языка Python, его можно запустить локально.
Постараюсь подробно ответить на вопросы по биогеографическому моделированию.
PS. Где же живёт снежный человек?
В США есть организация свидетелей Бигфута – местного снежного человека. Они задались целью собрать все точки наблюдений Бигфута от очевидцев.

Группа учёных попробовала обучить смоделировать ареал Бигфута на основании этих точек. Вывод у них политкорректный: ареал Бигфута удивительно совпадает с ареалом одного широко известного животного…
Так свидетели Бигфута поучаствовали в научном доказательстве, что его не существует.
Автор: kaichou


