gpu вычисления.

Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая главаСчитаем количество операцийА теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера, той самой архитектуры, которая лежит в основе практически всех современных LLM. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

продолжить чтение

Оставлено в

Масштабирование LLM: от одного чипа до ЦОДа. Глава 2. Шардинг

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая глава находится по этой ссылке.Итак, с основами разобрались, давайте теперь разбираться с тем, как распихать матрицы по нескольким чипам, перемножить, а затем собрать это все в удобоваримый результат. По-умному это называется шардинг.

продолжить чтение

Оставлено в

К2 НейроТех и ФГАУ «ЦИТ» заложили технологический ИИ-фундамент: облачная платформа для промышленного ИИ

ИИ-интегратор полного цикла К2 НейроТех (входит в К2Тех) завершил создание облачной платформы на отечественном программно-аппаратном стеке для разработки и внедрения решений на основе искусственного интеллекта для Федерального государственного автономного учреждения «Цифровые индустриальные технологии» (ФГАУ «ЦИТ»). Подведомственные предприятия получили возможность развертывать ИИ-сервисы для промышленных нагрузок по модели AIaaS (ИИ как услуга) без капитальных вложений в собственную инфраструктуру, сохраняя при этом полный контроль над данными.

продолжить чтение

Оставлено в

Как Amazon обогнала NVIDIA на три дня — и, возможно, изменила будущее ИИ-железа

Через несколько минут после публикации этой статьи NVIDIA представит то, что ещё недавно считалось бы первым в отрасли: разделённое (disaggregated) аппаратное решение для ИИ.

продолжить чтение

Оставлено в

Масштабирование LLM: от одного чипа до ЦОДа. Глава 1. Теоретические основы

ПредисловиеНедавно прочитал цикл статей о масштабировании LLM от Jax, в котором очень подробно и во всех нюансах разжеван процесс тренировки и инференса LLM на разных масштабах. Мне он показался очень полезным, поэтому я решил подготовить цикл статей на русском, являющихся не столько переводом, сколько научно-популярным пересказом того, что там написано, поскольку оригинальный текст рассчитан в основном на специалистов, и неспециалисту многие моменты в нем могут показаться сложными и не очевидными. Также планирую добавить информацию из других источников, например

продолжить чтение

Оставлено в

KernelEvo — автоматическая генерация GPU-ядер

Писать быстрые GPU‑ядра вручную долго и требует узкой экспертизы: нужно понимать модель памяти, эффективные паттерны доступа к памяти, ограничения конкретного бэкенда и уметь быстро разбираться в compile и runtime ошибках. При этом выигрыш от кастомного kernel'а может быть очень заметным. Поэтому автоматизация и упрощение процесса разработки ядер — практически важная задача.

продолжить чтение

Оставлено в
- cuda
- gpu вычисления

«Мы не догоняем Intel». Как в России создают нейроморфный процессор «Алтай»

Пока кто-то спорит, догонит ли Россия Intel и AMD в гонке нанометров, небольшая команда в Новосибирске идёт другим путём. Они создают процессор, который потребляет в 1000 раз меньше энергии, чем современные GPU, не использует ни одного зарубежного IP-блока и может работать автономно — от протезов до дата-центров. В стриме телеграм-канала AI4Dev — AI for Development

продолжить чтение