Microsoft Azure преодолела барьер инференса в 1 млн токенов в секунду. ai.. ai. microsoft.. ai. microsoft. nvidia.. ai. microsoft. nvidia. Блог компании BotHub.. ai. microsoft. nvidia. Блог компании BotHub. Будущее здесь.. ai. microsoft. nvidia. Блог компании BotHub. Будущее здесь. ИИ.. ai. microsoft. nvidia. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. microsoft. nvidia. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. microsoft. nvidia. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. microsoft. nvidia. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. microsoft. nvidia. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Microsoft Azure преодолела барьер инференса в 1 млн токенов в секунду - 1

Microsoft объявила о новом рекорде производительности в области инференса больших языковых моделей. На виртуальных машинах Azure ND GB300 v6, работающих на стоечных системах NVIDIA GB300 NVL72, инженерам удалось достичь скорости 1.1 миллиона токенов в секунду при работе с моделью Llama 2 70B. Это примерно на 27% выше предыдущего мирового показателя, установленного на оборудовании поколения GB200.

Microsoft Azure преодолела барьер инференса в 1 млн токенов в секунду - 2

Архитектура Blackwell, на которой основаны новые GPU, обеспечивает почти пятикратный рост пропускной способности по сравнению с H100, а использование формата FP4 и обновлённой библиотеки NVIDIA TensorRT-LLM позволило сократить задержки при обработке данных и повысить эффективность на уровне ядра. Всё это даёт возможность обрабатывать гораздо большие массивы информации с минимальными затратами энергии.

Испытания проводились в партнёрстве с независимой аналитической компанией Signal 65, которая подтвердила достоверность результатов. В открытом доступе опубликованы логи тестового инстанса на GitHub, что делает эксперимент одним из самых прозрачных в истории Azure.

Microsoft Azure преодолела барьер инференса в 1 млн токенов в секунду - 3

Кроме того, Azure готовит инструменты, которые позволят разработчикам использовать подобные мощности через стандартные API, не вдаваясь в детали архитектуры. Это приближает момент, когда инференс на миллион токенов в секунду станет не лабораторным рекордом, а повседневной практикой для коммерческих приложений.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100