gpu. - страница 3

gpu.

Anthropic будет платить xAI $1,25 млрд в месяц за вычислительные мощности

Anthropic заключила крупную сделку на покупку вычислительных мощностей у xAI. Компания получит доступ к 300 МВт compute — фактически ко всей мощности дата-центра Colossus 1 рядом с Мемфисом, штат Теннесси.

продолжить чтение

Компьютерное зрение: что получается, когда у вас не идеальная лаборатория, а дождь, снег и подвижный манипулятор

В проектах с компьютерным зрением есть неприятная правда: почти все выглядит убедительно, пока не сталкивается с реальной площадкой. На слайдах обычно все просто: камера смотрит, модель распознает, система фиксирует событие. Но в жизни вместо эталонных датасетов появляются снег, дождь, блики, разные ракурсы, подвижные камеры, бюджетные ограничения и обычные промышленные условия, в которых надо получить результат.Именно с такой задачей к команде разработчиков «Формат кода»

продолжить чтение

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Всем привет, меня зовут Сергей Прощаев, и в этой статье я расскажу про реальную архитектуру ИИ-сервисов, которые выдерживают high-load и отвечают за десятки миллисекунд. Я Tech Lead и руководитель направления Java | Kotlin разработки в FinTech & E-commerce, а ещё преподаю на курсах разработки и архитектуры в OTUS. За моими плечами — несколько проектов, где мы встраивали генеративные модели в прод, и каждый раз одно и то же: на нагрузочном тестировании всё летает, а в проде — латенси скачет, GPU греются, бюджет тает. На недавнем открытом уроке курса «ИИ-архитектор»

продолжить чтение

Минпромторг может ввести требования к российскому “железу” для ЦОДов под ИИ

продолжить чтение

Как развернуть Mistral 7B на GPU-сервере через vLLM

Если бюджет и ресурсы ограничены, а развернуть self-hosted LLM нужно, присмотритесь к такой связке: Mistral-7B-Instruct-v0.3 + виртуальная машина с RTX A5000 24GB

продолжить чтение

Великий парадокс VRAM: почему мы платим миллионы за память, чтобы делать всё, лишь бы ей не пользоваться

Если вы посмотрите на эволюцию видеокарт для машинного обучения, вы увидите одну тенденцию: гонку за объемом видеопамяти. Размеры LLM пухнут, KV кэш сжирает терабайты, батчи становятся всё больше. Нам нужно больше VRAM. Еще больше VRAM.Но если вы когда-нибудь писали собственные ядра на triton, вы знаете одну жестокую тайну, о которой не задумываются дата саентисты высокоуровневых фреймворков.Самая дорогая часть вашей видеокарты это самое медленное, узкое и отвратительное место во всей системе. И вся современная ML оптимизация (Kernel Fusion, FlashAttention, PagedAttention) сводится к одному правилу: 

продолжить чтение

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта

продолжить чтение

Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMax

продолжить чтение

Новая архитектура для агентов: как Intel и SambaNova разделили инференс между GPU, RDU и CPU

В апреле 2026-го Intel и ИИ-платформа SambaNova опубликовали совместный blueprint

продолжить чтение

МГУ и INTILED создают программный комплекс для расчёта освещения

Учёные Центра искусственного интеллекта МГУ совместно с инженерами компании INTILED разрабатывают

продолжить чтение

123456...10...17