Оптимальный путь в NLP: как стать Middle за полгода
Стать Middle NLP Engineer за 6 месяцев — реально. Не за два года, не через бесконечные курсы — а за полгода нормальной учебы. Эта статья - про оптимальный путь. Без матана, без академизма, без «прочитай пять книг». Только то, что реально нужно для собеседований и работы.Почему это реально:Мой путь от нуля до стажёра занял два года, и сейчас я понимаю, как пройти его быстрееПосле нахождения первой работы я вырос до Senior за год;Я регулярно провожу собеседования и знаю реальные требования;Уже помог нескольким людям войти в профессию.
Не только трансформеры: за пределами стандартных архитектур LLM
Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры. Дальше слово автору:Гибриды с линейным вниманием, текстовая диффузия, модели мира на основе кода и малые рекурсивные трансформеры.От DeepSeek R1 до MiniMax-M2, самые большие и способные LLM с открытыми весами сегодня остаются авторегрессивными (autoregressive) трансформерами декодерного типа, которые построены на различных вариациях оригинального механизма многоголового внимания (multi-head attention).
Поговорим о продвинутых техниках NLP
Обработка естественного языка (NLP) — увлекательная область искусственного интеллекта, которая позволяет компьютерам понимать, интерпретировать человеческую речь и реагировать на нее. В этой статье мы рассмотрим передовые методы NLP, включая трансформирующие модели, механизмы внимания и контекстуальные встраивания. Мы также приведем примеры кода с использованием Python и популярных библиотек NLP.
Мир после трансформеров: закат и новый рассвет больших языковых моделей
Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду. Проблема в том, что все они построены на одной и той же архитектуре трансформеров, поэтому страдают от общих недостатков. В этой статье эксперты из лаборатории искусственного интеллекта компании «Криптонит» расскажут о существующих ограничениях LLM, наметившихся путях их преодоления и о том, какими будут следующие большие языковые модели.
Трансформеры: технология, лежащая в основе больших языковых моделей | Глубокое обучение
Автор оригинала: Грант СандерсонЧто такое модель GPT?Формально говоря, GPT — это Generative Pre-Trained Transformer (генеративный предобученный трансформер). Первые два слова говорят сами за себя: generative означает, что модель генерирует новый текст; pre-trained означает, что модель была обучена на больших объёмах данных. На чём мы сосредоточимся, так это на transformer-аспекте языковой модели — главном двигателе недавнего бума в области ИИ.Что такое Трансформер (Transformer)?
Галлюцинации LLM: запретить нельзя использовать
Давайте поговорим о галлюцинациях LLM — больших языковых моделей.На первый взгляд это выглядит как ошибка, ложь или выдумка. В недавнем отчёте OpenAI Why Language Models Hallucinate
Как служба поддержки ЮMoney научилась общаться с пользователями из разных стран, не зная их языка
Привет, Хабр. Мы – Даша (инженер машинного обучения) и Наташа (ведущий аналитик в ЮMoney). В этой статье расскажем о системе машинного перевода, разработанной как end-to-end-решение для многоязычной поддержки в финтех-компании. Рассмотрим архитектуру, технические детали реализации и практические результаты внедрения системы. А ещё покажем, как общались с пользователем из Казахстана.
Кофе — мой type, музыка — мой out: строим NERвный-пайплайн на продуктовых запросах
Привет, Хабр! На связи команда Ad-Hoc аналитики X5 Tech.В этой статье расскажем, как мы научили поиск извлекать важные сущности из запросов пользователей. Полный разбор реализации NER (Named Entity Recognition) для продуктового ритейла, шаг за шагом: как мы размечали данные, считали метрики на уровне токенов и сущностей — и почему для коротких и длинных запросов потребовались разные архитектурные решения.

