- BrainTools - https://www.braintools.ru -
Жаркий июльский полдень. Кондиционеры в ЦОД перестают справляться, температура на входе в стойки ползёт вверх — и кластер один за другим уходит в троттлинг. Процессоры сбрасывают частоты, латентность растёт, ошибки [1] множатся, а планировщик принимает всё более сомнительные решения.
И вот что любопытно: ваш перегретый кластер всего лишь воспроизводит очень древний баг. Тот же самый, что в жару накрывает мозги почти всех живых существ. Учёные набрали уже приличную статистику: в жару птицы хуже учатся, собаки чаще кусаются, а горные козлы устраивают драки. Мозг [2] — это тоже вычислительный субстрат, и он точно так же троттлит при перегреве.
В ЮАР живёт небольшая чёрно-белая птица — южная дроздовая тимелия (pied babbler). В прохладный день она за секунды соображает, что до лакомства за прозрачной перегородкой достаточно обойти стенку сбоку. Но стоит столбику термометра подскочить — и птица упрямо бьётся в преграду, так и не сообразив её обойти. Ровно так ведёт себя зависший процесс, который снова и снова повторяет одну и ту же неудачную попытку и не ищет обходного пути.
Самцы гуппи в тёплой воде (эквивалент лёгкой волны жары) заваливают прохождение лабиринта — даже когда в конце ждёт привлекательная самка. Награда максимальная, приоритет высокий, а пропускная способность всё равно падает. SLA не спасает от физики.
Механизм прозаичен: температура воздуха тянет за собой температуру мозга, а перегретые нервы работают хуже. Страдает всё — восприятие [3], память [4], обучение [5]. Ровно как транзистор, вышедший за пределы теплового пакета.
Самое неприятное, что перегрев вредит и после того, как жара спала. У мышей плохие результаты в «горячих» лабиринтах связаны с воспалением гиппокампа [6] — центра памяти — и с гибелью нейронов. У мух, перегретых в раннем возрасте, во взрослом мозге меньше структур, отвечающих за обучение. А у рыб-чистильщиков после аномальной жары ключевой «когнитивный» отдел мозга заметно усох.
Инженеру ЦОД эта закономерность знакома не понаслышке — с железом всё устроено точно так же. Перегрев — это не только сиюминутный троттлинг, но и ускоренное старение компонентов, тихая порча данных и падение наработки на отказ. Железо, пережившее перегрев, — это уже немного не то же самое железо.
Дальше — самое интересное для облачного провайдера. Животные отлично справляются с терморегуляцией. Птицы раскрывают крылья и часто дышат с открытым клювом — чистое пассивное охлаждение, радиаторы и обдув. А пчёлы [7] прямо в полёте набирают капельки воды и наносят их себе на голову, устраивая «конвекционное охлаждение мозга». Это же буквально испарительное и жидкостное охлаждение — то самое, к которому дата-центры пришли постепенно.
И тут же — важное наблюдение. Хуже всех приходится тем, кто не управляет собственной температурой: рыбам и насекомым. Их «производительность» целиком зависит от окружающей среды. Полная аналогия с железом без активного терморегулирования: пока в зале прохладно — всё летает, чуть потеплело — и система деградирует, потому что собственного контура охлаждения у неё нет.
Ещё один эффект жары — рост агрессии. Разбор почти 70 000 случаев укусов собак в США показал: в 90-градусный день (~32 °C) риск на 10% выше, чем в 60-градусный (~15 °C). А наблюдения за сернами в Апеннинах выявили закономерность: чем жарче, тем скуднее растительность и тем яростнее животные дерутся за оставшиеся кормовые участки.
Переведём на язык систем: при дефиците ресурсов под нагрузкой процессы начинают конкурировать друг с другом — взаимные блокировки, состояния гонки, каскадные отказы. Механика ровно та же, что у серн на склоне: ресурса на всех не хватает — начинается борьба.
И человек здесь не исключение. Ещё в XIX веке заметили, что число насильственных преступлений во Франции достигает пика летом; позже жару связали с ростом агрессии и числа ошибок у людей. Получается, что в жару деградирует не только железо в стойке, но и человек, который им управляет: в душной серверной оператор ошибается чаще — и это часть той же самой проблемы перегрева.
Тепло — тихий враг надёжности, и это касается любых систем со сколько-нибудь сложной «вычислительной» начинкой: от мозга серны до вашего кластера. Природа решала задачу охлаждения естественным отбором, дата-центры — инженерными расчётами. Но итог один: и живой мозг, и дата-центр теряют производительность, как только охлаждение перестаёт справляться.
Поэтому в Cloud4Y [8] охлаждение — не «приятное дополнение», а базовая инфраструктура наравне с питанием и сетью. Мозги (и процессоры) должны оставаться холодными.
По мотивам материала «They call it stupid hot for a reason: Heat muddles animal brains» [9].
Автор: Cloud4Y
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/32574
URLs in this post:
[1] ошибки: http://www.braintools.ru/article/4192
[2] Мозг: http://www.braintools.ru/parts-of-the-brain
[3] восприятие: http://www.braintools.ru/article/7534
[4] память: http://www.braintools.ru/article/4140
[5] обучение: http://www.braintools.ru/article/5125
[6] гиппокампа: http://www.braintools.ru/article/6142
[7] пчёлы: http://workbee.ru/
[8] Cloud4Y: https://www.cloud4y.ru/?utm_source=habr&utm_medium=article&utm_campaign=stupid_hot
[9] «They call it stupid hot for a reason: Heat muddles animal brains»: https://arstechnica.com/science/2026/05/they-call-it-stupid-hot-for-a-reason-heat-muddles-animal-brains/
[10] Источник: https://habr.com/ru/companies/cloud4y/articles/1054848/?utm_campaign=1054848&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.