трансформеры.

Оптимальный путь в NLP: как стать Middle за полгода

Стать Middle NLP Engineer за 6 месяцев — реально. Не за два года, не через бесконечные курсы — а за полгода нормальной учебы. Эта статья - про оптимальный путь. Без матана, без академизма, без «прочитай пять книг». Только то, что реально нужно для собеседований и работы.Почему это реально:Мой путь от нуля до стажёра занял два года, и сейчас я понимаю, как пройти его быстрееПосле нахождения первой работы я вырос до Senior за год;Я регулярно провожу собеседования и знаю реальные требования;Уже помог нескольким людям войти в профессию.

продолжить чтение

Как мы построили систему матчинга товаров с помощью трансформеров и LLM

Привет! Мы — команда ML-разработчиков «Магнит Фудтех», входящей в состав бизнес-группы Магнит OMNI. Меня зовут Виктория Костерина, я тимлид команды. В этой статье мы вместе с моим коллегой, ML-инженером Богданом Тонанайским, рассказываем, как создавали систему автоматического сопоставления товаров между ассортиментом конкурентов и товарами «Магнита».

продолжить чтение

Не только трансформеры: за пределами стандартных архитектур LLM

Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры. Дальше слово автору:Гибриды с линейным вниманием, текстовая диффузия, модели мира на основе кода и малые рекурсивные трансформеры.От DeepSeek R1 до MiniMax-M2, самые большие и способные LLM с открытыми весами сегодня остаются авторегрессивными (autoregressive) трансформерами декодерного типа, которые построены на различных вариациях оригинального механизма многоголового внимания (multi-head attention).

продолжить чтение

Поговорим о продвинутых техниках NLP

Обработка естественного языка (NLP) — увлекательная область искусственного интеллекта, которая позволяет компьютерам понимать, интерпретировать человеческую речь и реагировать на нее. В этой статье мы рассмотрим передовые методы NLP, включая трансформирующие модели, механизмы внимания и контекстуальные встраивания. Мы также приведем примеры кода с использованием Python и популярных библиотек NLP.

продолжить чтение

Мир после трансформеров: закат и новый рассвет больших языковых моделей

Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду. Проблема в том, что все они построены на одной и той же архитектуре трансформеров, поэтому страдают от общих недостатков. В этой статье эксперты из лаборатории искусственного интеллекта компании «Криптонит» расскажут о существующих ограничениях LLM, наметившихся путях их преодоления и о том, какими будут следующие большие языковые модели.

продолжить чтение

Трансформеры: технология, лежащая в основе больших языковых моделей | Глубокое обучение

Автор оригинала: Грант СандерсонЧто такое модель GPT?Формально говоря, GPT — это Generative Pre-Trained Transformer (генеративный предобученный трансформер). Первые два слова говорят сами за себя: generative означает, что модель генерирует новый текст; pre-trained означает, что модель была обучена на больших объёмах данных. На чём мы сосредоточимся, так это на transformer-аспекте языковой модели — главном двигателе недавнего бума в области ИИ.Что такое Трансформер (Transformer)?

продолжить чтение

Галлюцинации LLM: запретить нельзя использовать

Давайте поговорим о галлюцинациях LLM — больших языковых моделей.На первый взгляд это выглядит как ошибка, ложь или выдумка. В недавнем отчёте OpenAI Why Language Models Hallucinate

продолжить чтение

Как служба поддержки ЮMoney научилась общаться с пользователями из разных стран, не зная их языка

Привет, Хабр. Мы – Даша (инженер машинного обучения) и Наташа (ведущий аналитик в ЮMoney). В этой статье расскажем о системе машинного перевода, разработанной как end-to-end-решение для многоязычной поддержки в финтех-компании. Рассмотрим архитектуру, технические детали реализации и практические результаты внедрения системы. А ещё покажем, как общались с пользователем из Казахстана.

продолжить чтение

Кофе — мой type, музыка — мой out: строим NERвный-пайплайн на продуктовых запросах

Привет, Хабр! На связи команда Ad-Hoc аналитики X5 Tech.В этой статье расскажем, как мы научили поиск извлекать важные сущности из запросов пользователей. Полный разбор реализации NER (Named Entity Recognition) для продуктового ритейла, шаг за шагом: как мы размечали данные, считали метрики на уровне токенов и сущностей — и почему для коротких и длинных запросов потребовались разные архитектурные решения.

продолжить чтение

В поисках алгоритма интеллекта — тезисы и комментарии. Часть 1

продолжить чтение

123
Rambler's Top100