Что делать, когда AI-агент «упал»: архитектура отказоустойчивости
Понедельник, 9 утра. Начало рабочей недели.API OpenAI лёг. Или лимиты закончились. Или интернет в офисе пропал.Что делает AI-агент? Ничего. А процесс, который он обслуживал, встаёт. Заявки копятся, договоры не согласовываются, клиенты ждут.И хуже всего — люди не знают, что агент не работает. Думают, что всё идёт по плану.Реальные сценарии сбоевЗа год работы с AI-агентами в проде я собрал коллекцию того, что ломается.Сбои провайдера LLM. OpenAI: 2-3 крупных сбоя в год плюс периодические замедления. Anthropic: реже, но бывает. GigaChat: стабильнее, но тоже не без проблем.Сетевые проблемы.

