Что происходит с LLM‑пайплайном, если провайдер падает посреди выполнения
В 2025 году каждый крупный провайдер LLM пережил минимум один значимый сбой. Большинство решений этой проблемы — gateway‑слой снаружи приложения: LiteLLM, Bifrost, Kong AI Gateway. Они перехватывают упавший HTTP‑запрос и повторяют его на другом провайдере.Это работает для одного вызова, но не работает для многошагового пайплайна — gateway не знает, что упавший запрос был вторым шагом из трёх. Он видит запрос, которому нужен retry, а не позицию в конечном автомате.В этой статье — как реализовать fallback провайдера как явный переход FSM на реальном стеке llm‑nano‑vm 0.8.6
Хроники Облачного княжества: как я приручал монолит‑дракона: Орден SLO и игла Кощея
Часть 3.Самая опасная магия в IT — это магия целей. Потому что цель легко обещает, а потом требует процентами отчёта.Есть особый вид страха, который появляется у инженера, когда два календаря совпадают.Первый календарь — релизный.Второй — организационный.И когда в один и тот же день на вас назначают «большую миграцию» и «большую презентацию результатов», реальность начинает пахнуть дымом ещё до того, как загорелся прод.Архимаг OKR стоял у проектора и рисовал стрелки.
Фреймворк отказоустойчивости для интерфейсов разговорного ИИ
Перевод подготовил автор канала Друг Опенсурса, приятного прочтения, заранее благодарю за подписку В статье описывается навигационная структура из 20 UX-паттернов, разделенных на уровень стабильности, фокуса, ясности и контроля. Подход предполагает использование чата как механизма обработки, а документа как основной рабочей области. Проблема интерфейсов на базе чата
Что делать, когда AI-агент «упал»: архитектура отказоустойчивости
Понедельник, 9 утра. Начало рабочей недели.API OpenAI лёг. Или лимиты закончились. Или интернет в офисе пропал.Что делает AI-агент? Ничего. А процесс, который он обслуживал, встаёт. Заявки копятся, договоры не согласовываются, клиенты ждут.И хуже всего — люди не знают, что агент не работает. Думают, что всё идёт по плану.Реальные сценарии сбоевЗа год работы с AI-агентами в проде я собрал коллекцию того, что ломается.Сбои провайдера LLM. OpenAI: 2-3 крупных сбоя в год плюс периодические замедления. Anthropic: реже, но бывает. GigaChat: стабильнее, но тоже не без проблем.Сетевые проблемы.
[Bus Factor] Почему ваша незаменимость — это архитектурная уязвимость (SPOF), а не повод для гордости
Понедельник, 09:30. Вы открываете Slack, Telegram и Jira. Там уже горит. В личке пять непрочитанных:
Отказоустойчивый человек: распределённое тело, нейропротезы и пределы непрерывности «я-сейчас»
TL;DRЧеловек — это не тело и не набор данных, а непрерывный субъективный процесс («я-сейчас»). Копирование сознания не спасает — оно создаёт наследника. Но если заранее включить в себя нейропротезы и вычислительные контуры, которые уже участвуют в субъективном опыте, то гибель тела перестаёт быть финалом. Это не бессмертие и не отказ от биологии — это архитектура живучести с жёсткими физическими пределами.1. Долгая перспектива: у биологии есть дедлайнМы живём возле G-звезды (Солнца)
Бас-фактор глазами водителя автобуса
Телефонный звонок. Трубку берет отец трех дочерей и слышит:— Это ты, мой лягушонок?— Нет. Это хозяин пруда.В последнее время стало привычно ссылаться на бас-фактор, как на что-то, что обязательно похоронит ваш проект, если вы наймете хоть одного толкового специалиста. Бизнесу, якобы, нужны сплошь взаимозаменяемые винтики, с правильно вывернутым гетеродином лайф-ворк баланса, способные хорошо использовать данные свыше фреймворки и библиотеки.
Cloud Native LVM: как автоматизировать поиск и разметку локальных дисков в Kubernetes
Всем привет, меня зовут Александр Зимин, я руковожу разработкой подсистемы хранения данных в Deckhouse. Сегодня хочу поговорить о хранении данных на локальных дисках в Kubernetes и поделиться тем, как мы автоматизируем их подготовку для администраторов и пользователей.Обычно решения, которые работают с локальными дисками в K8s, не предоставляют нативных инструментов для их поиска и разметки. Мы закрыли этот пробел и создали Cloud Native LVM. В статье я расскажу, как этот инструмент работает и как мы обошли подводные камни в процессе его разработки. Это статья по мотивам доклада
Стратегии управляемых облачных сервисов: ключевые уроки и примеры из практики ведущих предприятий
Перевод статьи Аамира Афтаба, где автор разбирает стратегии внедрения управляемых облачных сервисов, ключевые ошибки и лучшие практики корпоративной облачной трансформации на примере реального кейса сервиса по подбору специалистов в сфере здравоохранения и технологий.

