Как Amazon обогнала NVIDIA на три дня — и, возможно, изменила будущее ИИ-железа
Через несколько минут после публикации этой статьи NVIDIA представит то, что ещё недавно считалось бы первым в отрасли: разделённое (disaggregated) аппаратное решение для ИИ.
Масштабирование LLM: от одного чипа до ЦОДа. Глава 1. Теоретические основы
ПредисловиеНедавно прочитал цикл статей о масштабировании LLM от Jax, в котором очень подробно и во всех нюансах разжеван процесс тренировки и инференса LLM на разных масштабах. Мне он показался очень полезным, поэтому я решил подготовить цикл статей на русском, являющихся не столько переводом, сколько научно-популярным пересказом того, что там написано, поскольку оригинальный текст рассчитан в основном на специалистов, и неспециалисту многие моменты в нем могут показаться сложными и не очевидными. Также планирую добавить информацию из других источников, например
KernelEvo — автоматическая генерация GPU-ядер
Писать быстрые GPU‑ядра вручную долго и требует узкой экспертизы: нужно понимать модель памяти, эффективные паттерны доступа к памяти, ограничения конкретного бэкенда и уметь быстро разбираться в compile и runtime ошибках. При этом выигрыш от кастомного kernel'а может быть очень заметным. Поэтому автоматизация и упрощение процесса разработки ядер — практически важная задача.
«Мы не догоняем Intel». Как в России создают нейроморфный процессор «Алтай»
Пока кто-то спорит, догонит ли Россия Intel и AMD в гонке нанометров, небольшая команда в Новосибирске идёт другим путём. Они создают процессор, который потребляет в 1000 раз меньше энергии, чем современные GPU, не использует ни одного зарубежного IP-блока и может работать автономно — от протезов до дата-центров. В стриме телеграм-канала AI4Dev — AI for Development

