transformers.

Разработка LLM с нуля. Новые модели

Крупное обновление в моем курсе Разработка LLM с нуля.Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.

продолжить чтение

Оставлено в

Как разработать корпоративного кодового ассистента на основе LLM: от идеи до прототипа

продолжить чтение

Оставлено в

Как устроены нейросети для неспециалистов

Нам часто предлагают врубиться во что-то с места в карьер: «Вот я формулку нарисовал и всем понятно!».

продолжить чтение

Оставлено в

Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор

👋 Привет, Хабр!Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле.

продолжить чтение

Оставлено в

Нейросети простым языком

Привет!В интернете можно найти разные объяснения того, как работают нейросети, но те, что мне попадались, были либо слишком специфичны и ориентированы на специалистов, либо слишком упрощены.Постарался написать свои объяснения, которые были бы не было слишком упрощены, но при этом по возможности понятны.Статья на 10 процентов скомпилирована из других статей, на 30 процентов скомпилирована из множества диалогов с разными LLM и на 60 процентов “написана от руки” на основании статей и ответов.Оглавление

продолжить чтение

Оставлено в

Я построил Vision Transformer с нуля — и научил его обращать внимание

Vision Transformer (ViT) — это архитектура, которая буквально произвела революцию в том, как машины «видят» мир.В этой статье я не просто объясню, что такое ViT — я покажу вам, как создать эту магию своими руками, шаг за шагом, даже если вы никогда раньше не работали с трансформерами для задач с изображениями.Для начала давайте взглянем на архитектуру Vision Transformer:

продолжить чтение

Оставлено в

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

От проблемы до технической реализации — опыт создания ИИ‑ассистента для Росатома за 48 часов хакатона АтомикХак 2.0Часть 1: Бизнес‑кейс. Зачем это нужно?Проблема, которая съедает миллионыПредставьте: новый сотрудник крупной корпорации ищет ответ на рабочий вопрос. Он открывает внутренний портал, видит сотни PDF‑инструкций, тысячи записей в базе знаний службы поддержки. Час поиска, звонки коллегам, еще час изучения документов. В итоге — либо неточный ответ, либо решение отложить задачу.

продолжить чтение

Оставлено в

Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр!Меня зовут Алексей Рудак, я основатель компании Lingvanex, которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf.

продолжить чтение

Оставлено в

Еще один взгляд на LLM: рендеринг под другим соусом?

Статья написана без использования нейросетейЛюбая нейросеть — это black box. Любая LLM — это black box^2. Однако люди смогли их придумать. И если старые нейронные сети, основанные на перцептроне или его производных, базируются на вполне известных биологических процессах, то трансформеры лежат вне представления о работе мозга. Следовательно, возникает вопрос — почему это сделано именно так?В давнюю для себя пору я работал с трехмерной графикой, и когда мои должностные обязанности привели меня на темную дорожку современного хайпа, увиденное заставило меня задуматься о том, что где‑то все описанное уже было...

продолжить чтение

Оставлено в

Соединяем физику и лирику. Как я собрал рекомендательную систему для стихов с помощью Flask, sqlite-vec и Hugging Face

Люблю я кодить и стихи —Вот, в общем, все мои грехи...А. С. ПушкинПривет! Я Константин Хабазня, преподаватель программирования и математики, а также автор (что бы это ни значило).N-нное время назад увлёкся NLP (Natural Language Processing), что вполне логично для писателя, который кодит (или кодера, который пишет).Почитав интернет и пару вводных книжек, отправился учиться на ДПО в МФТИ. В качестве выпускного проекта придумал себе задачу — создать рекомендательную систему для стихов

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

transformers.

Разработка LLM с нуля. Новые модели

Как разработать корпоративного кодового ассистента на основе LLM: от идеи до прототипа

Как устроены нейросети для неспециалистов

Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор

Нейросети простым языком

Я построил Vision Transformer с нуля — и научил его обращать внимание

Как мы научили ИИ читать PDF и экономить сотни рабочих часов: полный кейс создания корпоративного ChatGPT

Вычисление функции потерь и градиентов в AI переводчике

Еще один взгляд на LLM: рендеринг под другим соусом?

Соединяем физику и лирику. Как я собрал рекомендательную систему для стихов с помощью Flask, sqlite-vec и Hugging Face

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

transformers.