gpu.
Кто ворует ваш GPU: атаки на открытые LLM-эндпоинты (Ollama, llama.cpp) — и при чём тут кража облачных ключей
Часть 2 серии про атаки на AI-инфраструктуру. В первой части мы поймали на ловушку сканер, который встроил разведку
Xiaomi разогнали 1T-модель до 1200 tok-s на стандартных GPU
Китайские команды MiMo и TileRT опубликовали режим UltraSpeed для модели MiMo V2.5 Pro (1,02T параметров).На одном 8-карточном сервере со стандартными GPU, до ~1200 токенов в секунду. Cerebras выдаёт похожие скорости на кастомном железе. Здесь обошлись без него.
Как мы четыре раза неправильно чинили мерцание при рендеринге 4,4 миллиона полигонов на wgpu
Уже год мы небольшой командой пишем на Rust + wgpu редактор топологий интегральных схем — что-то вроде KLayout, только с прицелом на российский рынок. Команда — три человека. Я в роли CTO направляю архитектуру и принимаю основные технические решения. История ниже — про одну такую серию решений, которую я завёл в тупик четыре раза подряд, прежде чем мы поняли, в чём была ошибка.Тестовый дизайн у нас — Caravel SkyWater SKY130, открытый чип на ~4,4 миллиона полигонов, 1014 уникальных ячеек и 22 уровня иерархии. Полный GDS-файл — 278 МБ.
Кремниевый король: Как NVIDIA заложила фундамент нейросетевой революции
1. Введение: Аппаратный фундамент ИИ-революцииСовременный ландшафт генеративного искусственного интеллекта невозможно представить без колоссальных вычислительных мощностей. Бум больших языковых моделей (LLM), начавшийся с триумфального шествия ChatGPT, и интеграция ИИ-инструментов в продукты IT-гигантов вроде Microsoft, Google и Amazon спровоцировали беспрецедентный спрос на специализированное железо. В центре этой аппаратной лихорадки оказалась компания, чья капитализация пробила исторические потолки, обойдя и Apple, и Microsoft. Речь, разумеется, о NVIDIA.
Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?
Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая главаСчитаем количество операцийА теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера, той самой архитектуры, которая лежит в основе практически всех современных LLM. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

