Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?
Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта
Зачем AMD это сделали? Instinct MI350P на 144 ГБ
Актуальное на сегодняшний день поколение серверных ускорителей AMD — это MI350X и MI355X на архитектуре CDNA 4. На борту — 288 ГБ HBM3E и 8 ТБ/с пропускной способности на модуль. Разница между ними — в тепловом пакете: MI350X охлаждается воздухом, а MI355X требует жидкостного охлаждения. Эти устройства поставляются в серверах в восьмикарточной конфигурации — суммарно получается 2,3 ТБ HBM3E, связанных через Infinity Fabric. Это уже серьезные машины для обучения и инференса больших моделей — с соответствующей ценой и требованиями к электроснабжению и охлаждению.Несколько дней назад AMD
МГУ и INTILED создают программный комплекс для расчёта освещения
Учёные Центра искусственного интеллекта МГУ совместно с инженерами компании INTILED разрабатывают
Мы уткнулись в потолок. Почему видеокарты перестали быстро расти — и что с этим делать
О смерти закона Мура применительно к GPU, стене памяти, которую никто не хочет замечать, и архитектурах, которые пытаются с этим жить.H100 стоит $30 000 и потребляет 700 Вт. RTX 5090 — $2 000 (де-факто больше) и 575 Вт. Прирост производительности между поколениями сжался с 80% до 15–20%. Это, на самом деле, структурная проблема. Давайте разберёмся, откуда она взялась и куда мы движемся.Откуда взялась проблема
СМИ: производитель видеокарт Galax прекратит деятельность — бренд опроверг это
Производитель видеокарт Galax прекратит свою деятельность по всему миру. Palit Microsystems возьмёт на себя полный контроль над брендом, сообщил портал Wccftech. Galax и Palit опровергли сообщение о прекращении деятельности, заявив, что оно бездоказательно.
DLSS 5: будущее игровой индустрии или тупик?
Споры вокруг технологии, которую NVIDIA представила 16 марта 2026 года на конференции GTC, не утихают. На первый взгляд, происходит настоящая революция: новый уровень графики без кратного роста нагрузки на железо.
Замена огромных ЦОД-ов на коробочные решения
Журнал Forbes публикует Интервью с компанией СпецлабМощные ПК с дорогими картами nVidia - безусловно универсальное решение для любых задач. Но бизнесу чаще нужны не любые, а конкретные. А российскому бизнесу еще и чтоб без Интернет. Дешевые нейрочипы справляются с адаптированными к ним моделям компьютерного зрения, например, как YOLO 26, гораздо эффективнее в плане получаемого результата. Вот такая коробочка не требует ни комнат для серверов, ни охлаждения, ни обслуживания, ни даже больших затрат электричества - потребляет всего 20 Вт. При этом отрабатывает именно те задачи, которые требуются пользователю.
Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март
Вы не ошиблись, прочитав заголовок. Практически все распространенные виды архитектур были представлены в новинках вендоров в марте. И все они так или иначе связаны с задачами машинного обучения и искусственного интеллекта.Привет, Хабр! Меня зовут Сергей Ковалёв, я менеджер выделенных серверов в Selectel. В новом дайджесте я собрал новинки, представленные в марте: процессоры, GPU, диски и другое. Подробности под катом!ПроцессорыIntel Core Ultra 200S Plus — минорное обновление линейки
vLLM Production Stack. Часть 1: Базовые возможности vLLM
ОглавлениеДля удобства навигацииВступлениеТестовое окружение Как устроены примеры в статьеЧто такое vLLM vLLM Production StackКакие модели можно запуститьЗапуск моделей в разных режимах Скачивание моделиЗапуск Qwen3-8BВключение вызова инструментов (tool-calling)

