трансформеры.

От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

Генеративный ИИ перестал быть магией и стал инструментом. Но чтобы им уверенно пользоваться, нужно понимать, как работают трансформеры и диффузионные модели, и уметь их адаптировать. В этом поможет

продолжить чтение

Оставлено в

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Пять лет назад я начал работать с или в проекте Comexp Research Lab - научно-исследовательской компании, в которой тогда было два человека (считая меня). На самом деле исследованиями компания в своей области занимается примерно 15 лет, просто именно на последние пять лет (и особенно на последние полтора года) пришлась самая интенсивность разработок и открытий.

продолжить чтение

Оставлено в

Как мы улучшили рекомендации для пользователей Авито с помощью трансформенной персонализации

Привет! Меня зовут Саша Михеев, и я работаю в Авито над развитием персонализации пользователей. Делаю так, чтобы покупатели видели объявления, которые могут их заинтересовать. Расскажу, как мы внедряли трансформеры, чтобы улучшить рекомендации для пользователей.Статья будет полезна data scientist- и ML-инженерам, ML-Ops-специалистам и продакт-менеджерам.

продолжить чтение

Оставлено в

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

Это вторая часть статьи.Часть 1: Практика без Python и data scienceAI в PHP: не теория, а место, с которого можно начатьВ своей прошлой статье я описал на довольно общем уровне почему тема AI вроде бы везде, но при этом почти не пересекается с повседневной PHP-разработкой. Не потому что PHP "не подходит", а потому что сам разговор обычно идёт мимо наших задач и привычного способа мышления. Ну и, конечно, о том, что почти нет материала, который объясняет AI именно для PHP-разработчиков, их задач и их мышления.

продолжить чтение

Оставлено в

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

Откройте любой BPE-токенизатор и введите слово "paratrooper". Вот что вернёт GPT-5.x (токенизатор o200k_base): . Три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель) — а токенизатор видит статистический шум.Это не баг, а особенность работы Byte Pair Encoding — алгоритма, который разрезает текст по частоте встречаемости пар символов, полностью игнорируя лингвистическую структуру слов. GPT-5.x, Claude, Gemini, LLaMA — все используют варианты BPE.

продолжить чтение

Оставлено в

Время разобраться, кто мы такие в эпоху ИИ

продолжить чтение

Оставлено в

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Как работают языковые модели? Думаю, это один из самых актуальных вопросов в последние годы. Я регулярно задаюсь этим вопросом и постоянно читаю материалы по работе трансформеров. Из всего, что я узнал, самый сложный, по моему мнению, механизм в работе LLM - внимание (attention)ВведениеПривет, Хабр! В этой статье я постараюсь рассказать, как механизм внимания помогает языковым моделям обрабатывать тысячи слов контекста и почему с этим не справлялись в свое время обычные RNN. В конце статьи я расскажу про проблемы классического attention и современные адаптации.

продолжить чтение

Оставлено в

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Эксперимент по хирургическому удалению слоёв из языковой моделиTL;DRЯ взял TinyLlama (1.1B параметров, 22 слоя) и начал удалять из неё слои, чтобы проверить гипотезу: современные LLM переобучены, и многие слои делают одно и то же.Результаты:Удалил 1 средний слой → +10% скорость, -4% качествоУдалил 7 слоёв (безопасных) → +30% скорость, -2.5% качествоУдалил первый слой → модель сломаласьНеожиданно: Layer 2 важнее Layer 0! (+6.67 vs +3.92 perplexity)Протестировал все 22 слоя по отдельности. Вот что нашёл.Зачем это нужно?

продолжить чтение

Оставлено в

Нейро сети для самых маленьких. Часть нулевая. Обзорная

Каждый раз, когда вы говорите нейросети «Спасибо», вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд.Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC.В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений.

продолжить чтение

Оставлено в

Ключевые технологии генеративного ИИ «на пальцах»

Нейросети - основа генеративного ИИСчитается, что революция генеративного ИИ началась в ноябре 2022 года с выходом в публичное пространство чат-бота ChatGPT 3.5, разработанного компанией OpenAI

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

трансформеры.

От Stable Diffusion до тонкой настройки LLM: разбираем новую книгу-практикум

TAPe + ML: универсальная архитектура компьютерного зрения вместо патчей и «сырых» пикселей

Как мы улучшили рекомендации для пользователей Авито с помощью трансформенной персонализации

AI для PHP-разработчиков. Часть 2: практическое использование TransformersPHP

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

Время разобраться, кто мы такие в эпоху ИИ

Анатомия трансформеров: почему обычный Self-Attention больше не используют

Лоботомия нейросети: удалил 7 слоёв из LLM — она стала на 30% быстрее

Нейро сети для самых маленьких. Часть нулевая. Обзорная

Ключевые технологии генеративного ИИ «на пальцах»

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

трансформеры.