Архитектура AI-сервисов: почему монолит убивает latency и GPU
Всем привет, меня зовут Сергей Прощаев, и в этой статье я расскажу про реальную архитектуру ИИ-сервисов, которые выдерживают high-load и отвечают за десятки миллисекунд. Я Tech Lead и руководитель направления Java | Kotlin разработки в FinTech & E-commerce, а ещё преподаю на курсах разработки и архитектуры в OTUS. За моими плечами — несколько проектов, где мы встраивали генеративные модели в прод, и каждый раз одно и то же: на нагрузочном тестировании всё летает, а в проде — латенси скачет, GPU греются, бюджет тает. На недавнем открытом уроке курса «ИИ-архитектор»
Голосовой агент — это не чатбот с телефоном: 40 часов экономии и $100, сожженные на ботах
Я однажды примерно за сутки сжег около $100 на голосовом агенте.Не на большом запуске. Не на огромной базе. Не на хитрой рекламной кампании. Просто на небольшом пуле холодных контактов, где агент периодически попадал на voicemail, IVR, секретарей и других ботов.В какой-то момент два не очень умных голосовых процесса могли довольно долго вежливо говорить друг другу что-то в духе:Здравствуйте.Здравствуйте, чем могу помочь?Я звоню, чтобы…Здравствуйте, чем могу помочь?Конечно, подскажите, пожалуйста…
Google добавила в Gemini API режимы Flex и Priority для управления ценой и надёжностью
Google представила два новых режима работы в Gemini API — Flex и Priority
О важности времени в архитектуре систем ИИ
Одной из наиболее недооцененных сил при проектировании систем ИИ является задержка при выполнении вычислений. Когда инженеры говорят о производительности модели, они часто сосредотачиваются на точности, полноте данных и производительности обучения.Но в производственных системах для пользователей огромное значение имеет время. Для них важно, чтобы система отвечала на их запросы достаточно быстро. Потому что даже самая умная система ИИ начинает сильно раздражать, если ответ на запрос пользователя приходит слишком поздно.
Почему AI-агенты такие медленные? Часть 1: Путь вайбкодера
Странный вопрос, не правда ли? У AI-агентов, конечно, есть разные проблемы, но вряд ли их можно обвинить в медлительности. Спросите, как говорится, любого, какие у него ощущения от AI, и первое, что вы услышите, будет что-то вроде: «AI за 3 часа сгенерировал мне 100 тысяч строк кода». Разве это можно назвать медлительностью?На этом месте можно было бы и разойтись: 100 тысяч за 3 часа. Покажите мне человека, который способен хотя бы в половину этого, — и «я съем свою шляпу». Но я по‑прежнему утверждаю, что AI-агенты слишком медленные. Не верите? Добро пожаловать под кат…Дисклеймер
Маршрутизация LLM: оптимизация путей обработки языка
Повышение эффективности и производительности через инновационные стратегии маршрутизации.ИсточникЧто такое LLM Routing?В стремительно развивающемся мире искусственного интеллекта большие языковые модели (LLM)

