квантизация.

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

АннотацияАвтоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language models, SLM). Транскрипт лекции продолжительностью ≈1,5 ч составляет около 15–20 тыс. токенов и формально умещается в контекстное окно современных локальных SLM, однако при обработке такого контекста single-call SLM систематически деградируют: теряют фрагменты из середины последовательности, не удерживают структуру и галлюцинируют термины и формулы. Это проявление эффекта Lost in the Middle

продолжить чтение

Xiaomi разогнали 1T-модель до 1200 tok-s на стандартных GPU

Китайские команды MiMo и TileRT опубликовали режим UltraSpeed для модели MiMo V2.5 Pro (1,02T параметров).На одном 8-карточном сервере со стандартными GPU, до ~1200 токенов в секунду. Cerebras выдаёт похожие скорости на кастомном железе. Здесь обошлись без него.

продолжить чтение

Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров.

продолжить чтение

Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве

Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда.

продолжить чтение

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

На прошлой неделе NVIDIA выложила отчёт про QAD и я его проигнорировал. Потому что каждый месяц кто-то "решает квантизацию" и каждый раз на практике всё не так радужно.Но потом коллега скинул табличку с AIME и я залип.Контекст такой. У нас на проде крутится модель на FP8, всё более-менее ок, но менеджмент хочет запихнуть 49B модель туда, где сейчас живёт 20B. Потому что "ну там же Blackwell, там же FP4, давайте". Я месяц назад попробовал наивно квантизовать в 4 бита — модель начала нести пургу на математике. Не сильно, но заметно. Закрыл тему, сказал что FP4 не готов.И тут этот отчёт.Что вообще происходит

продолжить чтение

EvoPress: новый подход к оптимизации и сжатию LLM от исследователей Яндекса

продолжить чтение

GGUF: квантизация с калибровкой (imatrix)

Привет, хабровчане!Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp

продолжить чтение

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Современные большие языковые модели (LLM) достигли впечатляющих результатов, но остаются громоздкими и статичными. Они требуют огромных вычислительных ресурсов и не умеют самостоятельно запоминать новый опыт в долгосрочной перспективе. В ближайшие годы нас ожидает переход от этих монолитных систем к персональным интеллектуальным агентам – компактным и адаптивным моделям, способным учиться на ходу. Ниже мы рассмотрим ключевые направления развития архитектур LLM, которые открывают путь к таким агентам: долговременная память на основе «mem-векторов», модульные трансформеры,

продолжить чтение

Знакомьтесь, HIGGS — новый метод сжатия LLM от исследователей из Яндекса и ведущих научно-технологических вузов

Исследователи из Yandex Research, НИУ ВШЭ, MIT, KAUST и ISTA разработали новый метод HIGGS для сжатия больших языковых моделей. Его особенность — высокая производительность даже на слабых устройствах без существенной потери качества. Например, это первый метод квантизации, с помощью которого удалось сжать DeepSeek R1 размером 671 млрд параметров без значительного ухудшения модели.

продолжить чтение

Квантизация

Автор статьи: Марк Блуменау - Сотрудник научно-исследовательских институтов ФИАН, ИЗМИРАН, ИФТТ, преподаватель Школы Высшей Математики

продолжить чтение

12