Центры обработки данных в космосе — это ужасная, кошмарная и совершенно бесполезная идея
Компании, занимающиеся искусственным интеллектом, в спешном порядке объединяются с компаниями, занимающимися космическими запусками и спутниками, чтобы строить центры обработки данных в космосе. Скажу кратко: это не сработает
Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token
Введение: Почему обычный Rate Limiting не работает для LLM?Деплой больших языковых моделей (LLM) — это всегда боль, когда дело доходит до пиковых нагрузок. В классических web-сервисах при высоких RPS мы просто включаем балансировщик, а если всё горит — жестко режем запросы HTTP 429 Too Many Requests.Но в мире генеративного AI отбрасывать запросы клиентов очень дорого: пользователь уже подождал, пока загрузится чат, написал длинный промпт, нажал Enter и… получил ошибку. А масштабирование GPU-кластера занимает минуты, которых у нас нет.В этой статье мы покажем, как подход “Динамической лени”
Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080
Я инженер, и у меня есть эдакий фетиш - все, что важно, должно находиться под моим контролем. Локально, в железе, которое можно измерить осциллографом, нагрузить до упора и при необходимости перепаять. Когда ты привык работать со схемами, сигналами и источниками питания, становится странно отдавать вычисления куда-то наружу и надеяться, что там “все нормально работает”.
Назад к on-premise. Почему это снова тренд и чем будет полезен Selectel Server
Разбираемся, как контроль над инфраструктурой превращается в бизнес-преимущество в новой экономической и регуляторной реальности, а также делимся, как в этом поможет
Как правильно выбрать процессоры под разные облачные сегменты
Облачная инфраструктура должна одинаково эффективно работать с корпоративными ERP-системами, современными контейнеризованными приложениями и базами данных. Выбор процессоров для такой универсальной платформы превращается в комплексную задачу, где необходимо учитывать производительность, экономическую целесообразность, гибкость архитектуры и возможности масштабирования.

