gpu.
Anthropic будет платить xAI $1,25 млрд в месяц за вычислительные мощности
Anthropic заключила крупную сделку на покупку вычислительных мощностей у xAI. Компания получит доступ к 300 МВт compute — фактически ко всей мощности дата-центра Colossus 1 рядом с Мемфисом, штат Теннесси.
Компьютерное зрение: что получается, когда у вас не идеальная лаборатория, а дождь, снег и подвижный манипулятор
В проектах с компьютерным зрением есть неприятная правда: почти все выглядит убедительно, пока не сталкивается с реальной площадкой. На слайдах обычно все просто: камера смотрит, модель распознает, система фиксирует событие. Но в жизни вместо эталонных датасетов появляются снег, дождь, блики, разные ракурсы, подвижные камеры, бюджетные ограничения и обычные промышленные условия, в которых надо получить результат.Именно с такой задачей к команде разработчиков «Формат кода»
Архитектура AI-сервисов: почему монолит убивает latency и GPU
Всем привет, меня зовут Сергей Прощаев, и в этой статье я расскажу про реальную архитектуру ИИ-сервисов, которые выдерживают high-load и отвечают за десятки миллисекунд. Я Tech Lead и руководитель направления Java | Kotlin разработки в FinTech & E-commerce, а ещё преподаю на курсах разработки и архитектуры в OTUS. За моими плечами — несколько проектов, где мы встраивали генеративные модели в прод, и каждый раз одно и то же: на нагрузочном тестировании всё летает, а в проде — латенси скачет, GPU греются, бюджет тает. На недавнем открытом уроке курса «ИИ-архитектор»
Как развернуть Mistral 7B на GPU-сервере через vLLM
Если бюджет и ресурсы ограничены, а развернуть self-hosted LLM нужно, присмотритесь к такой связке: Mistral-7B-Instruct-v0.3 + виртуальная машина с RTX A5000 24GB
Великий парадокс VRAM: почему мы платим миллионы за память, чтобы делать всё, лишь бы ей не пользоваться
Если вы посмотрите на эволюцию видеокарт для машинного обучения, вы увидите одну тенденцию: гонку за объемом видеопамяти. Размеры LLM пухнут, KV кэш сжирает терабайты, батчи становятся всё больше. Нам нужно больше VRAM. Еще больше VRAM.Но если вы когда-нибудь писали собственные ядра на triton, вы знаете одну жестокую тайну, о которой не задумываются дата саентисты высокоуровневых фреймворков.Самая дорогая часть вашей видеокарты это самое медленное, узкое и отвратительное место во всей системе. И вся современная ML оптимизация (Kernel Fusion, FlashAttention, PagedAttention) сводится к одному правилу:
Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?
Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта
Новая архитектура для агентов: как Intel и SambaNova разделили инференс между GPU, RDU и CPU
В апреле 2026-го Intel и ИИ-платформа SambaNova опубликовали совместный blueprint
МГУ и INTILED создают программный комплекс для расчёта освещения
Учёные Центра искусственного интеллекта МГУ совместно с инженерами компании INTILED разрабатывают

