Kubernetes.

Как вырасти до мидла: на что на самом деле смотрят тимлиды при оценке DevOps-инженеров

В начале карьеры может казаться, что для перехода с junior-уровня на middle достаточно выучить новые инструменты или просто набить пару лет опыта. На практике всё решает не только техническая база, но и мышление. То, как вы смотрите на задачу: просто «закрыть тикет» или понять, как ваше решение встроится в систему и повлияет на соседние компоненты.Я Алексей Сартаков, тимлид команды DevOps-инженеров во «Фланте». За годы работы вижу одну закономерность: быстрее растут не те, кто знает больше, а те, кто умеет видеть связи, вовремя задавать вопросы и брать ответственность за результат, а не только за строчку в манифесте чарта.

продолжить чтение

Эксперты для облачной индустрии: старт набора в совет АОТ

Привет, Хабр! На связи Александр Титов, директор Ассоциации профессионалов индустрии облачно-ориентированных технологий «АОТ», организатор сообщества DevOps Moscow и генеральный директор «Фланта». Это первая публикация в блоге АОТ на Хабре, но вы уже могли видеть новости о нас, побывать на конференции Kuber Conf by АОТ или участвовать в нашем исследовании State of Cloud Native

продолжить чтение

Приглашаем экспертов в совет по развитию облачных технологий в России

Привет, Хабр! На связи Александр Титов, директор Ассоциации профессионалов индустрии облачно-ориентированных технологий «АОТ», организатор сообщества DevOps Moscow и генеральный директор «Фланта». Это первая публикация в блоге АОТ на Хабре, но вы уже могли видеть новости о нас, побывать на конференции Kuber Conf by АОТ или участвовать в нашем исследовании State of Cloud Native

продолжить чтение

Автотесты: опыт построения системы качества для Kubernetes-платформы

На старте проекта у нас не было ни одного автотеста. При этом продукт уже представлял собой полноценную платформу контейнеризации на базе Kubernetes с большим количеством управляемых сервисов и единой консолью управления. Любое изменение могло затронуть базы данных, брокеры сообщений, системы хранения данных или внутренние управляющие компоненты платформы.

продолжить чтение

GPU-автоскейлинг на Kubernetes с KEDA: создание внешнего скейлера

продолжить чтение

Когда компании пора строить свой LLM-кластер, а не пользоваться внешними API

На раннем этапе внедрения LLM в компании выглядят как быстрый выигрыш: подключается внешний API (например, ChatGPT), ускоряется работа с текстами, автоматизируются ответы, появляются первые сценарии аналитики и агентных пайплайнов через Make или n8n.До определённого масштаба этого достаточно.По мере роста компании LLM перестаёт быть вспомогательным инструментом и становится частью операционных процессов. В системе появляются чувствительные данные, требования к контролю доступа, необходимость стабильной работы, интеграции во внутренние сервисы и вопросы экономики при больших объёмах запросов.

продолжить чтение

Загадка ядра Linux: почему на 36 vCPU Cilium падает, а на 32 — нет

Автор оригинальной статьи, Пьер Мане, рассказывает, как его команда столкнулась с на первый взгляд необъяснимым поведением Cilium и как поиск решения привёл его к конфигурации ядра Linux.Отладка сродни археологии: ты пробираешься сквозь слои абстракций, пока не доберёшься до коренной породы — ядра. Это история о том, как скрытая в коде Linux логика работы со степенями двойки приводила к случайным и загадочным падениям Cilium, из-за чего мы не могли выкатиться в production.

продолжить чтение

От Prometheus к Victoria Metrics: как мы пересобрали мониторинг в Kubernetes

1.   ВведениеВсем привет! Меня зовут Яблоков Олег, я — ведущий инженер ИТ-отдела Navio и отвечаю за систему мониторинга основной инфраструктуры компании. Это работа на стыке разработки и эксплуатации (development & operations, DevOps), наблюдаемости (Observability) и обеспечения надёжности сервисов (Site Reliability Engineering, SRE). Моя основная задача не просто собирать метрики, а сделать так, чтобы по ним можно было быстро понять статусы сервисов и не утонуть в шуме оповещений.

продолжить чтение

Только Сигма выбирают Delta Lake

Привет, Хабр! Меня зовут Дмитрий Кравчук, я занимаюсь всем, что связано с данными в блоке AI&ML MAGNIT TECH. Расскажу про фундамент прибыльных проектов, которыми мы занимаемся в департаменте. Это начало цикла статей о наших достижениях за 5 лет и планах на будущее.

продолжить чтение

Model Predictive Control для Kubernetes autoscaling: что получилось, где HPA оказался сильнее

Горизонтальное автоскалирование в Kubernetes обычно начинается с HPA. Это понятный и практичный механизм: контроллер смотрит на метрику, например CPU, и меняет число реплик Deployment. Для многих сервисов этого достаточно.Проблема начинается там, где нагрузка меняется быстрее, чем контур успевает на неё отреагировать. Метрика должна быть собрана, решение должно быть принято, новые Pod’ы должны запуститься и пройти readiness. Пока всё это происходит, старые Pod’ы уже могут работать на пределе, а хвостовые задержки p95/p99 — расти.

продолжить чтение

123456...8