Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов
Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.
Квантизация
Автор статьи: Марк Блуменау - Сотрудник научно-исследовательских институтов ФИАН, ИЗМИРАН, ИФТТ, преподаватель Школы Высшей Математики
Квантизация LLM: делаем модели легче в 4 раза
ВведениеСовременные языковые модели (LLM) содержат миллиарды параметров, что создает огромные требования к вычислительным ресурсам. Например:BERT: <1 млрд параметровGPT-2: >1 млрд параметровGPT-3: сотни млрд параметровDeepSeek: 671 млрд параметровТакие модели сложно запускать не только на домашних компьютерах, но даже на серверах среднего уровня. Квантизация - это метод уменьшения размера моделей для более эффективного использования памяти.📊 Форматы хранения чисел в нейросетяхСтандартные форматы