оптимизация нейросетей.

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Эксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.Результаты:Удалил 1 средний слой → +10% скорость, -4% качествоУдалил 7 слоёв (безопасных) → +30% скорость, -2.5% качествоУдалил первый слой → модель сломаласьНеожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)Протестировал все 22 слоя по отдельности. Вот что нашёл.Зачем это нужно?

продолжить чтение

Как квантовать LLM. Практическое руководство для начинающих

Всем привет! Меня зовут Максим, я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. Рост числа параметров в LLM и других нейронных сетях создает проблему того, что запускать их может все меньшее количество людей. Это связано с тем, что запуск больших моделей требует наличие мощного оборудования, недоступное всем. Для решения этой проблемы разрабатываются различные виды оптимизации, позволяющие запускать крупные нейронные сети (в частности LLM) на менее мощном оборудовании. Одним из наиболее популярных подходов оптимизации LLM является квантизация.

продолжить чтение

Как уместить ИИ на edge-устройствах

продолжить чтение

Как эффективно бороться с галлюцинациями нейросетей

Привет, я — Олег Рогов, руководитель фронтенд-разработки. В статье рассмотрю, почему искусственный интеллект (ИИ) галлюцинирует и как с этим бороться. С развитием ИИ больших языковых моделей перед пользователями встает вопрос о достоверности информации, которую они предоставляют. Иногда ИИ может выдавать ответы, которые выглядят убедительно, но на самом деле являются вымышленными или неточными. Явление, при котором языковая модель генерирует ложную информацию, получило название «галлюцинация».

продолжить чтение

Rambler's Top100