Некоторое время назад я опубликовал статью о том, как написал ML-скрипт для поиска потенциально обитаемых экзопланет. Я был воодушевлен результатами (алгоритм бодро находил кандидатов), но в комментариях меня ждал холодный душ.
Пользователь Quiensabe выдал жесткий, но абсолютно справедливый комментарий: “Где валидация в условиях distribution shift? Как ведет себя модель без зашитых физических лимитов (ablation study)? Где калибровка 95% интервалов, чтобы они не были просто декорацией?”.
Вызов был принят. Я понял, что просто “натравливать” XGBoost на сырые таблицы NASA — это тупик. Природа не работает по жестким границам, а машинное обучение без физики часто генерирует “ватные” планеты или невозможные структуры.
Спустя несколько дней интенсивной разработки, погружения в научные статьи (Zeng et al. 2016, Owen & Wu 2017) и проектирования трехуровневой архитектуры, я представляю ExoLogica AI 2.0: Spectral Biosignature Engine.
Мы не просто поправили ML. Мы создали 14-ступенчатый астрофизический конвейер, который заканчивается генерацией синтетических спектров пропускания для телескопа Джеймса Уэбба (JWST). И самое главное — мы честно обозначили границы применимости.
Часть 1. Ответ критикам: Валидация и честность (OOD)
В комментариях к прошлой версии проекта пользователь Quiensabe задал крайне неудобный, но абсолютно правильный вопрос: “Где явная формулировка domain of applicability? Что будет в условиях distribution shift? 95% интервалы в OOD-сценариях легко становятся декоративными”.
Действительно, скормить табличку алгоритму XGBoost и радоваться низкому MSE на тестовой выборке — это уровень Kaggle-туториала. В реальной астрофизике природа не работает по независимым одинаково распределенным (i.i.d.) законам. Нам нужно было доказать, что наш алгоритм не просто вызубрил датасет, а выучил физику, и понять, где эта физика ломается.
Для этого мы вынесли всю аналитику в отдельный ValidationModule. Давайте посмотрим на сухие цифры.

1. Ablation Study: Что решает — физика или алгоритм?
Самый частый упрек к ML в точных науках: “Вы просто натянули сову на глобус, классическая эмпирика работает лучше”. Мы провели жесткий тест на скалистых планетах и мини-нептунах (Радиус < 6 R⊕, Масса < 50 M⊕). Мы сравнили три подхода:
-
Physics Only (Chen & Kipping 2017): Классические эмпирические формулы дают ошибку предсказания массы MAE = 7.054 M⊕ Для небольших планет это катастрофический промах.
-
Pure ML (XGBoost): Чистый алгоритм без физических ограничений справляется лучше: MAE = 4.200 M⊕. Но он периодически генерирует “ватные” миры, нарушая пределы плотности железа.
-
ML + Physics Clip (Наш гибрид): Модель, предсказания которой “зажаты” в байесовские априорные рамки и физические пределы плотности. Результат: MAE = 3.998 M⊕.
Вывод: Ограничение машинного обучения физическими законами не только убирает аномалии, но и математически улучшает обобщающую способность модели.
2. Distribution Shift: Где модель начинает “плыть”?
Мы разбили транзитные миры по спектральным классам материнских звезд, чтобы проверить переносимость (transferability) модели. И тут нас ждало отрезвляющее, но важное открытие:
-
На красных карликах (M-класс) и оранжевых (K-класс) алгоритм работает блестяще: MAE 3.868 и 4.141 M⊕ соответственно. Это отличная новость, ведь именно у таких звезд мы ищем обитаемые миры!
-
А вот на желтых карликах (G-класс, как наше Солнце) ошибка растет до 5.160.
-
На горячих белых звездах (F-класс) алгоритм откровенно “плывет”: MAE достигает 8.039 (ошибка более 107%).
Мы больше не скрываем этот факт. Пайплайн официально хуже работает с планетами у массивных горячих звезд из-за скудности обучающей выборки и другой физики фотоиспарения.
3. Uncertainty Calibration: Не декоративные интервалы
Выдать предсказание массы в формате ± 15% легко. Гораздо сложнее доказать, что реальная масса попадает в этот коридор в 95 случаях из 100.
Мы протестировали покрытие наших предсказанных интервалов (95% CI Coverage) на отложенной выборке с известными массами. Алгоритм показал честные 90.8%. Да, модель слегка недокалибрована (under-calibrated) и чуть больше уверена в себе, чем стоило бы (90.8% против целевых 95%), но для астрофизических данных с огромным аппаратным шумом телескопов это феноменально надежный результат. Эти доверительные интервалы можно использовать для планирования наблюдательного времени на реальных обсерваториях.
4. Domain of Applicability: Красные флаги для OOD
Чтобы алгоритм больше не придумывал сказки, мы внедрили жесткий “Фейс-контроль” (Domain Checker). Модель оценивает Z-score и 99-е перцентили многомерного пространства (период, инсоляция, радиус звезды).
Если вы попытаетесь рассчитать планету с орбитальным периодом 450 дней (в то время как 99% базы Kepler и TESS — это короткопериодичные миры до 100 дней), система не просто выдаст цифру. Она повесит красный флаг Out-of-Distribution и снизит Confidence Score предсказания в паспорте планеты. Там, где кончается статистика, мы обязаны честно сказать пользователю: “Осторожно, дальше — зона натяжки”.
Часть 3. Астрофизический движок: 14 кругов планетного ада
В первой версии скрипта логика была наивной: ML предсказывал массу, мы считали плотность, равновесную температуру голого камня (Teq) и выдавали индекс ESI. Но планета — это не сферический конь в вакууме. Это сложнейшая система взаимосвязанных оболочек.
Чтобы по-настоящему оценить жизнепригодность и подготовить данные для симуляции спектров JWST, мы переписали ядро (PhysicsEngine и AtmosphereSimulator). Теперь каждая планета проходит 14 этапов глубокого академического разбора.
Вот главные столпы нашей новой физики:
1. Внутреннее строение и Геофизика (Core Mass Fraction)
Прежде чем говорить об атмосфере, нужно заглянуть в недра. Опираясь на уравнения состояния из работы Zeng et al. (2016), система рассчитывает долю железного ядра (fcore) и силикатной мантии.
Зачем это нужно? Чтобы оценить вероятность запуска магнитного динамо. Если у планеты крошечное ядро или она слишком медленно вращается (как, например, KOI-4878 b с её периодом в 449 дней), магнитного поля не будет. А без него атмосферу ждет печальная участь.
2. Магнитосфера и Звездный ветер
Красные карлики (M-класс) — самые частые хозяева “обитаемых” планет. Но в молодости они яростно извергают плазму. По уравнениям Vidotto et al. (2015) мы вычисляем давление звездного ветра (Psw) и магнитное сопротивление планеты (Pmag). Если плазма продавливает границу магнитопаузы (Rmp < 1 Rp) ниже поверхности планеты, мы вешаем красный флаг: радиация беспрепятственно уничтожает атмосферу.
3. Атмосферный пылесос (Джинс и Фотоиспарение)
Мы отказались от слепого предположения “у планеты есть атмосфера”. Движок прогоняет газы (H2, He, H2O, N2, CO2, O2) через два жестоких фильтра:
-
Тепловое убегание Джинса: Сможет ли гравитация удержать разогретые молекулы? Если среднеквадратичная скорость газа (vrms) превышает 1/6 скорости убегания (vesc), газ улетает в космос.
-
Hydrodynamic Photoevaporation: Модель Owen & Wu (2017). Мы интегрируем гидродинамическую потерю массы (M) под действием экстремального рентгеновского и УФ-излучения (XUV) за всю историю жизни планеты. Для Земли потери за 4.5 млрд лет мизерные, но планеты у вспыхивающих карликов часто теряют целые океаны, оставляя после себя сухие выжженные ядра.
4. Климатическая модель (Gray Atmosphere)
Только зная, какие газы реально остались у планеты после всех этапов эрозии, мы приступаем к климату. Teq (температура без атмосферы) у Земли равна -18 °C. Жить можно только благодаря парниковому эффекту.
Наш движок динамически назначает альбедо (A) и рассчитывает оптическую толщу в инфракрасном диапазоне (τIR) для CO2 и H2O. Модель серой атмосферы пересчитывает базовую температуру в реальную температуру поверхности (Tsurf). Это позволяет системе четко отличать умеренные землеподобные миры от венерианских “печей”.
5. Байесовский предохранитель и индекс CHI
Чтобы ограничить фантазию ML-алгоритма (XGBoost), мы внедрили на 14-м шаге Байесовскую иерархическую аппроксимацию массы:
Она учитывает металличность материнской звезды и усушку планеты со временем, выступая мощным аналитическим prior’ом.
Венчает этот конвейер наш новый CHI (Comprehensive Habitability Index). В отличие от наивного ESI, CHI берет базовое физическое подобие, а затем безжалостно штрафует планету:
-
За приливной захват (Tidal Locking — вечный день на одной стороне).
-
За отсутствие магнитного поля.
-
За экстремальный приливной нагрев (вулканизм уровня спутника Ио).
Только те объекты, которые выжили после этих 14 кругов астрофизического ада, передаются ансамблю Random Forest для финальной оценки вероятности обитаемости.
Часть 4. Киллер-фича: Синтезатор спектров JWST и поиск химического неравновесия
Давайте будем честны: предсказывать массы и плотности экзопланет — это круто, но это прошлый век. Вся современная астрофизика перешла в эру телескопа Джеймса Уэбба (JWST). Ученым больше не так интересны “голые” параметры орбиты, им нужно смотреть сквозь атмосферу. Этот метод называется Транзитная спектроскопия (Transmission Spectroscopy).
Когда планета проходит на фоне диска своей звезды, часть звездного света фильтруется через терминатор (край атмосферы) планеты. Разные молекулы газа (вода, метан, углекислый газ) поглощают фотоны на строго определенных длинах волн. В результате планета кажется чуть “больше” (глубже транзит) в этих спектральных линиях.
Мы написали SpectralEngine — физический модуль, который берет данные из нашего 14-шагового конвейера и генерирует синтетический спектр пропускания “на лету”.
Как это работает под капотом:
-
Масштаб высоты (H): На основе реальной температуры (Tsurf) и гравитации (g) мы вычисляем “толщину” атмосферы:
-
где μ — средняя молекулярная масса газов, переживших симулятор Джинса.
-
Оптическая толща и эффективный радиус: Мы накладываем гауссовы профили сечений поглощения ключевых биосигнатур (на базе упрощенных моделей HITRAN/ExoMol) и вычисляем эффективный радиус планеты R(λ) для каждой длины волны от 0.6 до 12 мкм.
-
Глубина транзита: Переводим разницу площадей в миллионные доли (ppm):
-
Инструментальный шум JWST: Идеальных графиков не бывает. Мы накладываем вероятностный 1σ-шум, имитируя погрешность приборов NIRSpec и MIRI.
Давайте посмотрим на гордость системы TRAPPIST-1 — планету TRAPPIST-1 e:
Спектр JWST: TRAPPIST-1 eАлгоритм показывает потрясающую картину! Масштаб высоты атмосферы H = 7.6 км. На фоне инструментального шума JWST (синяя зона) отчетливо пробиваются пики углекислого газа (CO2), водяного пара (H2O) и, что самое главное, озона (O3) в MIRI-диапазоне (~9.6 мкм). Глубина линий достигает 100 ppm — это вполне по силам телескопу Уэбба за несколько транзитов.
Святой Грааль: Химическое неравновесие
Наш движок делает не только отрисовку. Он сканирует пики и ищет паттерны химического неравновесия.
В астробиологии считается, что если в атмосфере одновременно находятся восстановители (например, метан CH4) и сильные окислители (кислород O2 или озон O3) — это почти 100% маркер жизни. Без постоянного биогенного пополнения эти газы быстро прореагируют друг с другом и исчезнут. ExoLogica AI автоматически детектирует такие “невозможные” комбинации и выдает вердикт о наличии биосигнатур.
А теперь давайте вернемся к нашему «ложному кумиру» — планете KOI-4878 b (с ESI = 0.978), которую мы разгромили в Части 2. Посмотрим на ее синтетический спектр:
Разница колоссальна! Из-за огромной массы и плотности (железное ядро) гравитация сплющила атмосферу — масштаб высоты H всего 4.1 км. Спектральные линии (CO2) дают жалкие колебания в 10-15 ppm, которые безнадежно тонут в аппаратном шуме телескопа. Даже если там есть жизнь, мы ее никогда не увидим. Именно поэтому слепая погоня за высоким индексом ESI лишена практического смысла.
Публичный прогноз (Testable Hypothesis)
Возможности JWST сейчас направлены именно на такие транзитные миры. На базе симуляций ExoLogica AI 2.0 я делаю смелый публичный прогноз:
Когда JWST накопит достаточно транзитов для системы TRAPPIST-1 (планеты d, e), мы увидим мощные линии углекислого газа, но мы НЕ увидим явных маркеров плотной водяной атмосферы или химического неравновесия.
Гидродинамические модели нашего пайплайна (Hydrodynamic Photoevaporation) показывают, что из-за экстремальной XUV-активности родительского красного карлика на фазе насыщения (в первые 100-500 млн лет), легкие элементы были безвозвратно выжжены в космос. Там остались лишь тяжелые, мертвые вторичные атмосферы венерианского типа.
Будем ждать публикаций от NASA, чтобы проверить, была ли права наша физико-математическая модель!
Часть 5. Открытые данные: 42 «спартанца» ExoLogica AI против 45 планет Корнеллского университета
Буквально на днях астрономическое сообщество взорвала новость: команда исследователей из Корнеллского университета опубликовала в MNRAS обновленный каталог из 45 потенциально обитаемых экзопланет. Они проделали колоссальную работу, опираясь на свежие данные обсерваторий.
Мы решили бросить вызов традиционному подходу и прогнать сырую базу NASA через наши суровые 14 физико-математических фильтров и ансамбль машинного обучения. На выходе алгоритм отсеял 99% “мусора” и выдал собственный, независимый датасет из 42 прайм-кандидатов.
Сегодня мы выкладываем этот список в открытый доступ. Давайте сравним, где наш ИИ согласился с профессорами Корнелла, а где безжалостно забраковал их любимчиков.
✅ Золотое сечение: Совпадения
Наш конвейер полностью подтвердил жизнепригодность следующих миров из университетского каталога. Это абсолютные “бриллианты”, на которые JWST должен смотреть в первую очередь:
-
TOI-700 d и TOI-700 e
-
TRAPPIST-1 d и TRAPPIST-1 e
-
Kepler-442 b и Kepler-1652 b
-
TOI-715 b, TOI-1266 d, Ross 508 b, GJ 1061 d
❌ Что мы выкинули: Почему ML спорит с профессорами
Корнеллский список включает 45 планет. Наш алгоритм выбросил целый ряд “знаменитостей”, посчитав их ложно-обитаемыми. Почему?
-
TRAPPIST-1 f и g: Да, они находятся в расширенной обитаемой зоне. Но наш модуль термодинамики неумолим: без плотной парниковой подушки CO2 (которую, согласно нашей модели гидродинамического фотоиспарения XUV, красный карлик давно сдул) их реальная температура падает ниже 200 К. Это замороженные ледяные шары, а не “Земля 2.0”.
-
Proxima Centauri b: Отсутствует в нашем финальном списке. Ближайшая к нам экзопланета страдает от катастрофических звездных вспышек. Модуль взаимодействия со звездным ветром (Vidotto 2015) показал, что при её параметрах магнитопауза продавлена, и атмосфера сорвана в космос.
-
LHS 1140 b: Университет называет её одним из лучших кандидатов. Наш Байесовский вывод массы и радиуса классифицирует её как тяжелый “Мини-Нептун” / Океаниду с колоссальным давлением на дне (низкий индекс PRI), где сложная углеродная химия невозможна.
📋 Полный каталог ExoLogica AI (42 прайм-кандидата)
Для энтузиастов, Data Scientist’ов и исследователей мы публикуем полный список миров, выживших после нашей ML-экзекуции. Именно на них должна быть сосредоточена транзитная спектроскопия ближайших десятилетий:
Системы TOI и TRAPPIST: TOI-700 d, TOI-700 e, TOI-1266 d, TOI-715 b, TRAPPIST-1 e, TRAPPIST-1 d.
Системы Kepler (Скалистые земли): Kepler-1649 Ac, Kepler-1649 c, Kepler-1229 Ab, Kepler-1229 b, Kepler-442 b, Kepler-452 b, Kepler-1652 b, Kepler-51 e, Kepler-283 c, Kepler-283 Ac, Kepler-1410 b, Kepler-296 Ae, Kepler-296 f, Kepler-22 b, Kepler-440 b, Kepler-1058 Ab, Kepler-705 b, Kepler-1653 Ab.
Системы K2 и GJ (Красные карлики): K2-72 e, K2-288 Bb, K2-288 B b, GJ 1061 d, GJ 682 b, GJ 3998 d, GJ 667 C c.
Ближайшие соседи и микролинзирование: Luyten’s Star b, Ross 508 b, Teegarden’s b, HIP 38594 b, HD 283869 b, HN Lib b, KIC 5522786 b, KMT-2017-BLG-0849 b, KMT-2017-BLG-0849L b, OGLE-2018-BLG-0532L b, OGLE-2018-BLG-0532 b.
Файл ExoLogica_Export.csv со всеми восстановленными физическими характеристиками (массы, радиусы, доли железных ядер, температуры Tsurf) опубликован на Яндекс.Диске.
Заключение. Хабр против NASA: открытая наука против бюрократии
Когда-то считалось, что большая наука — это удел закрытых институтов, многомиллионных грантов и бесконечной бумажной бюрократии. Чтобы опубликовать свежую идею в профильном журнале (вроде того же MNRAS или ApJ), нужно пройти круги рецензирования, согласований и подгонки под стандарты.
Но мир изменился. Сегодня мощности обычного ноутбука, помноженные на открытые архивы данных и современные ML-библиотеки, позволяют одиночке или небольшой группе энтузиастов собирать пайплайны, которые по глубине аналитики дышат в спину инструментам из реальных центров управления полетами.
Мы с вами взяли “игрушечный” скрипт из пары строк кода и, благодаря жесткому, но конструктивному фидбеку Хабра, превратили его в ExoLogica AI 2.0 — 14-ступенчатый астрофизический симулятор, который не просто предсказывает плотность, но и генерирует синтетические спектры JWST, учитывая приливной разогрев, гидродинамическое убегание и магнитные поля.
И мы не собираемся прятать это за пейволлами научных журналов. Наука должна быть открытой, быстрой и дерзкой.
В ближайшее время я планирую выпустить финальную standalone-сборку программы под macOS и Windows. Вам не нужно будет устанавливать Python, возиться с зависимостями scikit-learn или настраивать LaTeX-рендерер. Вы просто скачаете приложение, нажмете “Обновить данные” — и у вас на столе окажется актуальная база экзопланет со встроенным спектральным симулятором.
А теперь главный вопрос: сможем ли мы, сообщество энтузиастов с Хабра, сделать реальное открытие раньше NASA? У нас есть инструмент, у нас есть публичный прогноз (отсутствие биосигнатур у TRAPPIST-1 из-за фотоиспарения), и у нас есть открытый датасет из 42 прайм-кандидатов.
Телескоп Джеймса Уэбба прямо сейчас смотрит в небо. Кто знает, может быть, именно наша ML-модель первой укажет на систему, где в спектрах пересекутся линии метана и озона?
И самое главное: мы с нетерпением ждем в комментариях новую волну жесткой, но конструктивной критики! Ведь именно в таких спорах и рождается по-настоящему сильный софт.
Давайте двигать науку вместе!
Автор: Lomakn


