gpu. - страница 2

gpu.

Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей

Часть 2 серии про атаки на AI-инфраструктуру. В первой части мы поймали на ловушку сканер, который встроил разведку

продолжить чтение

Xiaomi разогнали 1T-модель до 1200 tok-s на стандартных GPU

Китайские команды MiMo и TileRT опубликовали режим UltraSpeed для модели MiMo V2.5 Pro (1,02T параметров).На одном 8-карточном сервере со стандартными GPU, до ~1200 токенов в секунду. Cerebras выдаёт похожие скорости на кастомном железе. Здесь обошлись без него.

продолжить чтение

Как мы четыре раза неправильно чинили мерцание при рендеринге 4,4 миллиона полигонов на wgpu

Уже год мы небольшой командой пишем на Rust + wgpu редактор топологий интегральных схем — что-то вроде KLayout, только с прицелом на российский рынок. Команда — три человека. Я в роли CTO направляю архитектуру и принимаю основные технические решения. История ниже — про одну такую серию решений, которую я завёл в тупик четыре раза подряд, прежде чем мы поняли, в чём была ошибка.Тестовый дизайн у нас — Caravel SkyWater SKY130, открытый чип на ~4,4 миллиона полигонов, 1014 уникальных ячеек и 22 уровня иерархии. Полный GDS-файл — 278 МБ.

продолжить чтение

Тестируем выделенный L40S и vGPU на 16 ГБ по производительности (llama.cpp, ComfyUI)

продолжить чтение

64 прямоугольника хватит всем

продолжить чтение

Кремниевый король: Как NVIDIA заложила фундамент нейросетевой революции

1. Введение: Аппаратный фундамент ИИ-революцииСовременный ландшафт генеративного искусственного интеллекта невозможно представить без колоссальных вычислительных мощностей. Бум больших языковых моделей (LLM), начавшийся с триумфального шествия ChatGPT, и интеграция ИИ-инструментов в продукты IT-гигантов вроде Microsoft, Google и Amazon спровоцировали беспрецедентный спрос на специализированное железо. В центре этой аппаратной лихорадки оказалась компания, чья капитализация пробила исторические потолки, обойдя и Apple, и Microsoft. Речь, разумеется, о NVIDIA.

продолжить чтение

Четыре новых образа в AI-Marketplace Selectel: инфраструктура для MLOps и автоматизации

продолжить чтение

ИИ-токены могут стать новым биржевым товаром: Китай готовит фьючерсы на стоимость инференса

продолжить чтение

Дезагрегированный инференс LLM в Kubernetes: префилл, декодирование и планирование подов

продолжить чтение

Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая главаСчитаем количество операцийА теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера, той самой архитектуры, которая лежит в основе практически всех современных LLM. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

продолжить чтение

123456...10...17