VRAM.

Великий парадокс VRAM: почему мы платим миллионы за память, чтобы делать всё, лишь бы ей не пользоваться

Если вы посмотрите на эволюцию видеокарт для машинного обучения, вы увидите одну тенденцию: гонку за объемом видеопамяти. Размеры LLM пухнут, KV кэш сжирает терабайты, батчи становятся всё больше. Нам нужно больше VRAM. Еще больше VRAM.Но если вы когда-нибудь писали собственные ядра на triton, вы знаете одну жестокую тайну, о которой не задумываются дата саентисты высокоуровневых фреймворков.Самая дорогая часть вашей видеокарты это самое медленное, узкое и отвратительное место во всей системе. И вся современная ML оптимизация (Kernel Fusion, FlashAttention, PagedAttention) сводится к одному правилу: 

продолжить чтение

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта

продолжить чтение

9 агентов, 6 моделей, 1 сервер: как собрать ИИ-компанию на open-source в марте 2026

Я собрал команду из 9 ИИ-агентов, которая проектирует, пишет, тестирует и деплоит других ИИ-агентов. Полный цикл — от пользовательского запроса до production-ready кода с тестами и security review. Без людей в цикле.Ниже — конкретика: какие модели, на какие роли, почему именно эти, как они шарят GPU, сколько стоят в гигабайтах и какие бенчмарки реально определяют выбор. С конфигурациями развёртывания от одной RTX 4090 до кластера A100.TL;DR: 9 логических агентов = 3-4 физических модели. Минимальный сетап — 24 GB VRAM (одна RTX 4090). Полный продакшен — 211 GB (четыре A100). Интерактивный дашборд

продолжить чтение

Как я экономлю на инференсе LLM-модели в облаке и не теряю в качестве

Если вы читаете этот текст, скорее всего, вы уже пробовали запустить LLM самостоятельно и, вполне вероятно, столкнулись с одной из типичных проблем:«Заказал GPU, загрузил модель, а она не влезла, хотя по расчетам памяти должно было хватить».«Платим за A100, а реально используем лишь 30% ее мощности».Привет, на связи Павел, ML-инженер в Cloud.ru. Я прошел через эти проблемы сам, поэтому не понаслышке знаю, как это может раздражать.

продолжить чтение

Кому нужны игровые видеокарты NVIDIA с 48 ГБ VRAM и почему их до сих пор нет

Геймеры, играющие в 4К-игры, энтузиасты генеративного ИИ и все, кто работает с крупными LLM-моделями, всё чаще сталкиваются с серьезным ограничением — недостаточным объемом видеопамяти. Даже топовые потребительские видеокарты с 24 ГБ или 32Gb VRAM не всегда справляются с тяжелыми задачами. Например, для профессионального видеомонтажа 8K-материала в DaVinci Resolve с применением сложных эффектов и многослойной композиции 24 ГБ видеопамяти часто оказывается недостаточно.

продолжить чтение

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

продолжить чтение

Новая версия DLSS от Nvidia обеспечивает снижение потребления VRAM на 20%

Nvidia оптимизировала

продолжить чтение

Почему видеокарты до сих пор не получили модульную память?

Представьте, что вы купили видеокарту с 8 ГБ VRAM, а через год игры или иференсы модели стали требовать 32 ГБ. Не проще ли было бы докупить модуль памяти, как с оперативкой? Увы, это невозможно. Почему же производители десятилетиями игнорируют модульность видеопамяти? Давайте разбираться.

продолжить чтение