GGUF: квантизация с калибровкой (imatrix)
Привет, хабровчане!Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp
Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам
Современные большие языковые модели (LLM) достигли впечатляющих результатов, но остаются громоздкими и статичными. Они требуют огромных вычислительных ресурсов и не умеют самостоятельно запоминать новый опыт в долгосрочной перспективе. В ближайшие годы нас ожидает переход от этих монолитных систем к персональным интеллектуальным агентам – компактным и адаптивным моделям, способным учиться на ходу. Ниже мы рассмотрим ключевые направления развития архитектур LLM, которые открывают путь к таким агентам: долговременная память на основе «mem-векторов», модульные трансформеры,
Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов
Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.
Квантизация
Автор статьи: Марк Блуменау - Сотрудник научно-исследовательских институтов ФИАН, ИЗМИРАН, ИФТТ, преподаватель Школы Высшей Математики
Квантизация LLM: делаем модели легче в 4 раза
ВведениеСовременные языковые модели (LLM) содержат миллиарды параметров, что создает огромные требования к вычислительным ресурсам. Например:BERT: <1 млрд параметровGPT-2: >1 млрд параметровGPT-3: сотни млрд параметровDeepSeek: 671 млрд параметровТакие модели сложно запускать не только на домашних компьютерах, но даже на серверах среднего уровня. Квантизация - это метод уменьшения размера моделей для более эффективного использования памяти.📊 Форматы хранения чисел в нейросетяхСтандартные форматы

