Как работают языковые модели? Думаю, это один из самых актуальных вопросов в последние годы. Я регулярно задаюсь этим вопросом и постоянно читаю материалы по работе трансформеров. Из всего, что я узнал, самый сложный, по моему мнению, механизм в работе LLM - внимание (attention)ВведениеПривет, Хабр! В этой статье я постараюсь рассказать, как механизм внимания помогает языковым моделям обрабатывать тысячи слов контекста и почему с этим не справлялись в свое время обычные RNN. В конце статьи я расскажу про проблемы классического attention и современные адаптации.

Оставлено в

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Эксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.Результаты:Удалил 1 средний слой → +10% скорость, -4% качествоУдалил 7 слоёв (безопасных) → +30% скорость, -2.5% качествоУдалил первый слой → модель сломаласьНеожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)Протестировал все 22 слоя по отдельности. Вот что нашёл.Зачем это нужно?

продолжить чтение

Оставлено в

Нейро сети для самых маленьких. Часть нулевая. Обзорная

Каждый раз, когда вы говорите нейросети «Спасибо», вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд.Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC.В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений.

продолжить чтение

Оставлено в

Ключевые технологии генеративного ИИ «на пальцах»

Нейросети - основа генеративного ИИСчитается, что революция генеративного ИИ началась в ноябре 2022 года с выходом в публичное пространство чат-бота ChatGPT 3.5, разработанного компанией OpenAI

продолжить чтение

Оставлено в

TSP трансформеры

Трансформеры — это больше, чем кажется на первый взглядВозможно кто-то догадался, что заголовок выше — это перевод первых строк темы из ламповых сюжетов мульсериала 80-х:The TransformersMore than meets the eye

продолжить чтение

Оставлено в

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Знание механизма внимания и трансформеров - база любых собеседований на все грейды в NLP!Статья не рассчитана на изучение тем с нуля, если вы еще не слышали ничего про attention, то лучше обратиться к полноценным лекциям.Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по NLP, чтобы закрыть пробелы и вспомнить необходимую базу.Содержание:Архитектура трансформераМеханизм вниманияПозиционные эмбеддингиТокенизацияТрансформерные архитектуры (BERT, GPT и тд)Полезные материалы

продолжить чтение

Оставлено в

Логический компас для искусственного интеллекта

продолжить чтение

Оставлено в

Оптимальный путь в NLP: как стать Middle за полгода

Стать Middle NLP Engineer за 6 месяцев — реально. Не за два года, не через бесконечные курсы — а за полгода нормальной учебы. Эта статья - про оптимальный путь. Без матана, без академизма, без «прочитай пять книг». Только то, что реально нужно для собеседований и работы.Почему это реально:Мой путь от нуля до стажёра занял два года, и сейчас я понимаю, как пройти его быстрееПосле нахождения первой работы я вырос до Senior за год;Я регулярно провожу собеседования и знаю реальные требования;Уже помог нескольким людям войти в профессию.

продолжить чтение

Оставлено в

Как мы построили систему матчинга товаров с помощью трансформеров и LLM

Привет! Мы — команда ML-разработчиков «Магнит Фудтех», входящей в состав бизнес-группы Магнит OMNI. Меня зовут Виктория Костерина, я тимлид команды. В этой статье мы вместе с моим коллегой, ML-инженером Богданом Тонанайским, рассказываем, как создавали систему автоматического сопоставления товаров между ассортиментом конкурентов и товарами «Магнита».

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

трансформеры.

Время разобраться, кто мы такие в эпоху ИИ

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Нейро сети для самых маленьких. Часть нулевая. Обзорная

Ключевые технологии генеративного ИИ «на пальцах»

TSP трансформеры

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Логический компас для искусственного интеллекта

Оптимальный путь в NLP: как стать Middle за полгода

Как мы построили систему матчинга товаров с помощью трансформеров и LLM

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

трансформеры.