transformers.

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Знание механизма внимания и трансформеров - база любых собеседований на все грейды в NLP!Статья не рассчитана на изучение тем с нуля, если вы еще не слышали ничего про attention, то лучше обратиться к полноценным лекциям.Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по NLP, чтобы закрыть пробелы и вспомнить необходимую базу.Содержание:Архитектура трансформераМеханизм вниманияПозиционные эмбеддингиТокенизацияТрансформерные архитектуры (BERT, GPT и тд)Полезные материалы

продолжить чтение

Оставлено в

Как свергнуть короля: формула для линейной альтернативы Трансформеру без побочных эффектов

продолжить чтение

Оставлено в

Бустим Transformer-модель через адаптивную TSCO-архитектуру

Не так давно я писал про наш проект SemantML и про нейродинамическую архитектуру. Хочется поделиться последними результатами развития архитектуры и показателями нашей модели на основе синтеза классических трансформеров и нейродинамики в проведенных бенчрмарках в сравнении с классическим Трансформером.

продолжить чтение

Оставлено в

Momentum Attention: когда внимание получает инерцию

В классическом self-attention каждый токен смотрит на другие токены, чтобы понять, что важно в данный момент.Внимание распределяется мгновенно:Именно этот механизм сделал трансформеры тем, чем они стали.Но вот в чём проблема - внимание не имеет памяти.

продолжить чтение

Оставлено в

CoolPrompt: Автоматическая Оптимизация Промптов для LLM

продолжить чтение

Оставлено в

Разработка LLM с нуля. Новые модели

Крупное обновление в моем курсе Разработка LLM с нуля.Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.

продолжить чтение

Оставлено в

Как разработать корпоративного кодового ассистента на основе LLM: от идеи до прототипа

продолжить чтение

Оставлено в

Как устроены нейросети для неспециалистов

Нам часто предлагают врубиться во что-то с места в карьер: «Вот я формулку нарисовал и всем понятно!».

продолжить чтение

Оставлено в

Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор

👋 Привет, Хабр!Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле.

продолжить чтение

Оставлено в

Нейросети простым языком

Привет!В интернете можно найти разные объяснения того, как работают нейросети, но те, что мне попадались, были либо слишком специфичны и ориентированы на специалистов, либо слишком упрощены.Постарался написать свои объяснения, которые были бы не было слишком упрощены, но при этом по возможности понятны.Статья на 10 процентов скомпилирована из других статей, на 30 процентов скомпилирована из множества диалогов с разными LLM и на 60 процентов “написана от руки” на основании статей и ответов.Оглавление

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

transformers.

Топ вопросов с NLP собеседований: трансформеры и внимание до малейших деталей

Как свергнуть короля: формула для линейной альтернативы Трансформеру без побочных эффектов

Бустим Transformer-модель через адаптивную TSCO-архитектуру

Momentum Attention: когда внимание получает инерцию

CoolPrompt: Автоматическая Оптимизация Промптов для LLM

Разработка LLM с нуля. Новые модели

Как разработать корпоративного кодового ассистента на основе LLM: от идеи до прототипа

Как устроены нейросети для неспециалистов

Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор

Нейросети простым языком

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

transformers.