CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA. ai.. ai. cuda.. ai. cuda. nvidia.. ai. cuda. nvidia. Блог компании BotHub.. ai. cuda. nvidia. Блог компании BotHub. Будущее здесь.. ai. cuda. nvidia. Блог компании BotHub. Будущее здесь. ИИ.. ai. cuda. nvidia. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. cuda. nvidia. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. cuda. nvidia. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. cuda. nvidia. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.
CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA - 1

Исследовательская команда DeepReinforce представила систему CUDA L2, которая автоматически генерирует GPU код для матричного умножения и делает это так эффективно, что созданные ею HGEMM ядра обгоняют cuBLAS и cuBLASLt в среднем на 10–30 процентов. Эти библиотеки создаются вручную специалистами NVIDIA и считаются эталоном оптимизации, поэтому такой результат вызвал серьёзный интерес в индустрии.

CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA - 2

CUDA L2 полностью меняет привычный подход к оптимизации. Вместо применения фиксированных шаблонов и небольших корректировок параметров, система использует связку большой языковой модели и обучения с подкреплением. LLM пишет CUDA ядро с нуля под конкретный размер матрицы, а цикл RL выполняет сгенерированный код на реальном железе, измеряет скорость и корректность, затем обновляет модель. Процесс повторяется до тех пор, пока LLM не находит максимально производительный вариант. За счёт этого итоговый код не привязан к человеческим шаблонам и свободно меняет глубинные аспекты ядра: стратегию тайлинга, структуру циклов, схему паддинга и даже свизл паттерны.

CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA - 3

В роли генератора использовалась DeepSeek 671B, прошедшая дополнительное обучение на массиве CUDA ядер и высококачественном коде из PyTorch, ATen, CUTLASS и примеров NVIDIA. Отдельное преимущество состоит в том, что CUDA L2 обрабатывает около тысячи реальных конфигураций матриц, а не несколько типовых размеров, поэтому ускорение распространяется на большее количество практических сценариев.

CUDA L2 показывает, что ИИ может писать GPU ядра быстрее инженеров NVIDIA - 4

Тесты подтверждают результат. В оффлайн режиме система в среднем на 17–22 процентов быстрее torch.matmul, cuBLAS и cuBLASLt. Даже расширенное автотюнинг решение cuBLASLt AutoTuning уступило примерно на 11 процентов. В серверном сценарии, который лучше отражает реальные условия инференса, ускорение выросло до 24–29 процентов. Для обучающих пайплайнов это означает ощутимое снижение затрат, поскольку HGEMM занимает значительную часть времени в претрейне и файнтюне моделей.

Авторы выкладывают практические результаты, включая набор оптимизированных A100 ядер для тысячи конфигураций. В планах расширение метода на архитектуры Ada Lovelace, Hopper и Blackwell, а также поддержка более плотных конфигураций и 32 битных вариаций HGEMM. В индустрии отмечают, что подход CUDA L2 может стать новым стандартом оптимизации, где языковые модели выступают полноценными инженерами по производительности.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100