Архитектура AI-сервисов: почему монолит убивает latency и GPU
Всем привет, меня зовут Сергей Прощаев, и в этой статье я расскажу про реальную архитектуру ИИ-сервисов, которые выдерживают high-load и отвечают за десятки миллисекунд. Я Tech Lead и руководитель направления Java | Kotlin разработки в FinTech & E-commerce, а ещё преподаю на курсах разработки и архитектуры в OTUS. За моими плечами — несколько проектов, где мы встраивали генеративные модели в прод, и каждый раз одно и то же: на нагрузочном тестировании всё летает, а в проде — латенси скачет, GPU греются, бюджет тает. На недавнем открытом уроке курса «ИИ-архитектор»
Найм не спас, Telegram подвёл, ИИ устроил бардак: как мы просели, вернули деньги клиентам, но в итоге собрали веб-сервис
Привет, Хабр. Меня зовут Антон, я технический директор
Gemini: как пользоваться в России
С середины 2023 года Google постепенно ограничивал доступ к своим новым AI-сервисам с территории России, Gemini не стал исключением. Причина стандартная: санкционные ограничения и политика компании, которая не хочет рисковать. В результате пользователям из РФ приходится изворачиваться.
Как мы меняем клиентский сервис с помощью AI. Часть 1
Кажется, что большие языковые модели просто созданы для того, чтобы работать в клиентском сервисе. Они умеют анализировать запрос, генерировать короткие и подробные ответы, структурировать и объяснять. Но в большинстве случаев мы все равно недовольны ответами чат-ботов и просим быстрее «перевести на оператора». Почему?Я — Максим Михайлов из Cloud.ru
62% IT-специалистов доверяют AI-cервисам — новое исследование Cloud.ru
Привет! На связи Екатерина Косова, бизнес-аналитик из Cloud.ru и когнитивный психолог по совместительству — исследую доверие с научной точки зрения. Мы с командой конкурентного анализа изучаем облачный и IT-рынки в России и мире, отслеживаем ключевые тренды и ищем инсайты из мира технологий, которые до нас никто не находил.

