Рецепт vLLM с мистралем. Часть 1
На первом этапе нашей заготовки модели мы займемся ее 4-х битным квантованием, а во второй части будем использовать vLLM для запуска парралельных запросов к ней.Поехали!
Прорыв в обучении бинарных нейронных сетей: новый метод квантования обеспечивает их стабильность и высокое качество
Группа российских ученых из компании Smart Engines и МФТИ предложила новый способ квантования бинарных нейронных сетей. Им удалось добиться лучших результатов для обучения таких сетей. Работа опубликована в журнале Computer Optics 2024.
Оптимизация LLM: LoRA и QLoRA
Масштабируемые методы тонкой настройки для больших языковых моделей.С появлением ChatGPT стало очевидно, какими многообещающими могут быть большие языковые модели, способные понимать естественный язык и точно отвечать на запросы пользователей. Таким моделям присуще огромное количество параметров: современные LLM нередко содержат их более миллиарда.
Малые числа, большие возможности: Роль плавающей запятой в ИИ
Числа с плавающей запятой лежат в основе подавляющего большинства компьютерных вычислений, особенно в сферах искусственного интеллекта (ИИ) и машинного обучения. Они позволяют моделям эффективно обрабатывать данные, обеспечивая баланс между точностью и скоростью вычислений. Развитие вычислительных технологий требует новых форматов, которые оптимизируют использование памяти и ускоряют вычислительные процессы без значительных потерь точности. Одним из перспективных форматов стал FP8 — 8-битный формат чисел с плавающей запятой, который может улучшить производительность вычислений и сократить энергопотребление.
Квантование моделей: запуск новейших моделей Google на локальном оборудовании
Обучение с учётом квантования позволяет запускать новейшие модели Google на локальных графических процессорах и даже на мобильных устройствах.
HIGGS: Новый алгоритм квантования нейросетей
С развитием LLM, более актуальной становится проблема сокращения вычислительных затрат. Одним из самых эффективных решений является квантование - представление параметров модели в низкой точности (например, 4 бита вместо 32). Однако существующие методы квантования страдают от отсутствия строгого теоретического обоснования и оптимальности. HIGGS - новый подход, который решает эти проблемы, основываясь на доказанной авторами теореме линейности.Статья на arXivHuggingFaceЧто такое квантование и почему оно важно?
Квантованные БМ сети: упрощаем типы данных
Как вы уже видели, регулярно читая наш блок, мы не только занимаемся разработкой промышленных систем распознавания документов (паспортов, кадрового документооборота, первички и т.п.), но и активно развиваем перспективные технологии в области компьютерного зрения. Сегодняшняя статья из области эффективных нейросетевых архитектур.Биполярные морфологические (БМ) сети – нейронные сети от Smart Engines

