PEFT.

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

продолжить чтение

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM

продолжить чтение

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Современные большие языковые модели (LLM) достигли впечатляющих результатов, но остаются громоздкими и статичными. Они требуют огромных вычислительных ресурсов и не умеют самостоятельно запоминать новый опыт в долгосрочной перспективе. В ближайшие годы нас ожидает переход от этих монолитных систем к персональным интеллектуальным агентам – компактным и адаптивным моделям, способным учиться на ходу. Ниже мы рассмотрим ключевые направления развития архитектур LLM, которые открывают путь к таким агентам: долговременная память на основе «mem-векторов», модульные трансформеры,

продолжить чтение

Rambler's Top100