Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?
Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая главаСчитаем количество операцийА теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера, той самой архитектуры, которая лежит в основе практически всех современных LLM. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.
Масштабирование LLM: от одного чипа до ЦОДа. Глава 2. Шардинг
Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая глава находится по этой ссылке.Итак, с основами разобрались, давайте теперь разбираться с тем, как распихать матрицы по нескольким чипам, перемножить, а затем собрать это все в удобоваримый результат. По-умному это называется шардинг.
К2 НейроТех и ФГАУ «ЦИТ» заложили технологический ИИ-фундамент: облачная платформа для промышленного ИИ
ИИ-интегратор полного цикла К2 НейроТех (входит в К2Тех) завершил создание облачной платформы на отечественном программно-аппаратном стеке для разработки и внедрения решений на основе искусственного интеллекта для Федерального государственного автономного учреждения «Цифровые индустриальные технологии» (ФГАУ «ЦИТ»). Подведомственные предприятия получили возможность развертывать ИИ-сервисы для промышленных нагрузок по модели AIaaS (ИИ как услуга) без капитальных вложений в собственную инфраструктуру, сохраняя при этом полный контроль над данными.
Как Amazon обогнала NVIDIA на три дня — и, возможно, изменила будущее ИИ-железа
Через несколько минут после публикации этой статьи NVIDIA представит то, что ещё недавно считалось бы первым в отрасли: разделённое (disaggregated) аппаратное решение для ИИ.
Масштабирование LLM: от одного чипа до ЦОДа. Глава 1. Теоретические основы
ПредисловиеНедавно прочитал цикл статей о масштабировании LLM от Jax, в котором очень подробно и во всех нюансах разжеван процесс тренировки и инференса LLM на разных масштабах. Мне он показался очень полезным, поэтому я решил подготовить цикл статей на русском, являющихся не столько переводом, сколько научно-популярным пересказом того, что там написано, поскольку оригинальный текст рассчитан в основном на специалистов, и неспециалисту многие моменты в нем могут показаться сложными и не очевидными. Также планирую добавить информацию из других источников, например
KernelEvo — автоматическая генерация GPU-ядер
Писать быстрые GPU‑ядра вручную долго и требует узкой экспертизы: нужно понимать модель памяти, эффективные паттерны доступа к памяти, ограничения конкретного бэкенда и уметь быстро разбираться в compile и runtime ошибках. При этом выигрыш от кастомного kernel'а может быть очень заметным. Поэтому автоматизация и упрощение процесса разработки ядер — практически важная задача.
«Мы не догоняем Intel». Как в России создают нейроморфный процессор «Алтай»
Пока кто-то спорит, догонит ли Россия Intel и AMD в гонке нанометров, небольшая команда в Новосибирске идёт другим путём. Они создают процессор, который потребляет в 1000 раз меньше энергии, чем современные GPU, не использует ни одного зарубежного IP-блока и может работать автономно — от протезов до дата-центров. В стриме телеграм-канала AI4Dev — AI for Development

