Я устал писать одноразовые скрипты для бенчмарков LLM и собрал харнесс, который сам считает Pareto-front
LLM inference benchmarkС чего все началосьУ меня была вполне приземленная задача: понять, на каком бэкенде гонять одну и ту же открытую модель — на vLLM, llama.cpp, ONNX Runtime или просто на transformers. Звучит как вопрос на пять минут, пока ты не начинаешь честно мерить.
4.6-битные сети: от теории к практике. Причём здесь HardTanh?
Уже прошло два года с тех пор, как мы предложили схему 4.6-битного квантования и рассказали про нее, в том числе и на Хабре: раз и два. Вспомним, что при 4.6-битном квантовании веса и входы слоя принимают такие целые значения, что их попарные произведения помещаются в знаковый 8-битный тип данных. Такая схема позволила нам вычислять нейронные сети на процессорах мобильных устройств быстрее, чем в 8-битном формате, и точнее, чем в 4-битном, потому что уровней квантования больше.
Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic
«У нас было две планки оперативной памяти, одна серверная Tesla V100, прочная открытая рама вместо корпуса, 5 райзеров, коробка, наполовину набитая переходниками питания, и целое море разноцветных SATA‑кабелей, стяжек и термопрокладок, а так же тюбик термопасты, моток шлангов для водянки, ящик вентиляторов, пинта изопропила и 12 саморезов неизвестного происхождения. Не то, чтобы всё это было категорически необходимо для сборки, но если уж начал собирать коллекцию, то к делу надо подходить серьёзно.»— по мотивам Хантера С. Томпсона, «Страх и Ненависть в Лас‑Вегасе»
Anthropic выпустила Fable 5 — и я задумался, не движемся ли мы не в ту сторону
Самая мощная публично доступная модель оказалась дороже и медленнее. Разбираю релиз и рассуждаю, почему удешевление и ускорение, возможно, важнее роста потолка9 июня Anthropic выпустила Claude Fable 5 — первую публично доступную модель класса Mythos. Той самой Mythos, которую в апреле компания сочла настолько мощной (и потенциально опасной в части кибербезопасности), что не стала открывать публике, а раздала ограниченному кругу организаций в рамках программы Project Glasswing. Спустя меньше трёх месяцев Anthropic решила, что готова дать публике модель того же класса — с оговорками.
Inspector v3: как я сделал свой центр управления Kubernetes на старом ноутбуке
Привет, Хабр! Меня зовут Артём, в YADRO я работаю инженером инфраструктуры: виртуализация, мониторинг, контейнеризация — это мое ежедневное. Также занимаюсь инфраструктурной автоматизацией. В декабре ко мне пришли коллеги с запросом инфраструктуры под инференс. Но Kubernetes на старте этой истории был для меня темным лесом: уровень «развернуть и передать», не более. Чтобы закрыть пробел в квалификации, решил взяться за проект. Вся история и итоги — далее в посте.
Архитектура AI-сервисов: почему монолит убивает latency и GPU
Всем привет, меня зовут Сергей Прощаев, и в этой статье я расскажу про реальную архитектуру ИИ-сервисов, которые выдерживают high-load и отвечают за десятки миллисекунд. Я Tech Lead и руководитель направления Java | Kotlin разработки в FinTech & E-commerce, а ещё преподаю на курсах разработки и архитектуры в OTUS. За моими плечами — несколько проектов, где мы встраивали генеративные модели в прод, и каждый раз одно и то же: на нагрузочном тестировании всё летает, а в проде — латенси скачет, GPU греются, бюджет тает. На недавнем открытом уроке курса «ИИ-архитектор»

