- BrainTools - https://www.braintools.ru -

Microsoft объявила о новом рекорде производительности в области инференса больших языковых моделей. На виртуальных машинах Azure ND GB300 v6, работающих на стоечных системах NVIDIA GB300 NVL72, инженерам удалось достичь скорости 1.1 миллиона токенов в секунду при работе с моделью Llama 2 70B. Это примерно на 27% выше предыдущего мирового показателя, установленного на оборудовании поколения GB200.

Архитектура Blackwell, на которой основаны новые GPU, обеспечивает почти пятикратный рост пропускной способности по сравнению с H100, а использование формата FP4 и обновлённой библиотеки NVIDIA TensorRT-LLM позволило сократить задержки при обработке данных и повысить эффективность на уровне ядра. Всё это даёт возможность обрабатывать гораздо большие массивы информации с минимальными затратами энергии.
Испытания проводились в партнёрстве с независимой аналитической компанией Signal 65, которая подтвердила достоверность результатов. В открытом доступе опубликованы логи тестового инстанса на GitHub, что делает эксперимент одним из самых прозрачных в истории Azure.

Кроме того, Azure готовит инструменты, которые позволят разработчикам использовать подобные мощности через стандартные API, не вдаваясь в детали архитектуры. Это приближает момент, когда инференс на миллион токенов в секунду станет не лабораторным рекордом, а повседневной практикой для коммерческих приложений.
Делегируйте часть рутинных задач вместе с BotHub! [1] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [2] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [3]
Автор: cognitronn
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/21545
URLs in this post:
[1] BotHub!: https://bothub.chat/?utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_source=contentmarketing&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_medium=habr&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_campaign=news&utm%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C%5C_content=MICROSOFT%20AZURE%20SURPASSED%20THE%20INFERENCE%20BARRIER%20OF%201%20MILLION%20TOKENS%20PER%20SECOND
[2] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[3] Источник: https://techcommunity.microsoft.com/blog/azurehighperformancecomputingblog/breaking-the-million-token-barrier-the-technical-achievement-of-azure-nd-gb300-v/4466080
[4] Источник: https://habr.com/ru/companies/bothub/news/963432/?utm_source=habrahabr&utm_medium=rss&utm_campaign=963432
Нажмите здесь для печати.