sla.

SLA как инструмент, а не отчёт

Часть 2. Масштабирование, автоматизация, AI и два компонента надёжностиЭто вторая часть разбора того, как мы выстраивали SLA и инцидент-менеджмент в большом продукте.Меня зовут Дмитрий Химион, я руководитель ML Platform в X5 Digital. В первой части я рассказал, как мы пересобрали инцидент-менеджмент как процесс и внедрили единый алгоритм расчёта потерь, позволивший бизнесу и командам прийти к общему знаменателю.

продолжить чтение

Оставлено в

Что делать, когда AI-агент «упал»: архитектура отказоустойчивости

Понедельник, 9 утра. Начало рабочей недели.API OpenAI лёг. Или лимиты закончились. Или интернет в офисе пропал.Что делает AI-агент? Ничего. А процесс, который он обслуживал, встаёт. Заявки копятся, договоры не согласовываются, клиенты ждут.И хуже всего — люди не знают, что агент не работает. Думают, что всё идёт по плану.Реальные сценарии сбоевЗа год работы с AI-агентами в проде я собрал коллекцию того, что ломается.Сбои провайдера LLM. OpenAI: 2-3 крупных сбоя в год плюс периодические замедления. Anthropic: реже, но бывает. GigaChat: стабильнее, но тоже не без проблем.Сетевые проблемы.

продолжить чтение

Оставлено в

[SHUTDOWN] END OF LIFE (EOL). Архитектура финального релиза

продолжить чтение

Оставлено в

LLM модели: зарубежные VS отечественные

Когда команда выбирает LLM для продакшена, «сравнение по бенчмаркам» — это лишь первый фильтр. Для CTO ключевой вопрос звучит иначе: какую комбинацию качества, стоимости, стабильности API, юридических ограничений и интеграций мы получим на реальной нагрузке. Я разобрал популярные модели через призму двух контуров: качество/бенчмарки и инфраструктурная пригодность.Сравнение бенчмарков

продолжить чтение

Оставлено в

Как не потерять миллионы на SLA: архитектурный подход к управлению ожиданиями

Нарушение SLA — это условность, которую придумали поверх технических проблем. В IT-инфраструктуре любая техническая проблема быстро превращается в убытки, особенно если не умеешь правильно управлять доступностью. В этой статье расскажу, как на практике связаны инциденты и деньги, почему формальное соблюдение SLA — это ещё не успех, и как выстроить процессы так, чтобы бизнес не терял миллионы из-за минут простоя.Под капотом этой статьи — связь техники, архитектуры и менеджмента

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

sla.

SLA как инструмент, а не отчёт

Что делать, когда AI-агент «упал»: архитектура отказоустойчивости

[SHUTDOWN] END OF LIFE (EOL). Архитектура финального релиза

LLM модели: зарубежные VS отечественные

Как не потерять миллионы на SLA: архитектурный подход к управлению ожиданиями

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

sla.

SLA как инструмент, а не отчёт

Что делать, когда AI-агент «упал»: архитектура отказоустойчивости

[SHUTDOWN] END OF LIFE (EOL). Архитектура финального релиза

LLM модели: зарубежные VS отечественные

Как не потерять миллионы на SLA: архитектурный подход к управлению ожиданиями