nlp. - страница 5

nlp.

Как мы построили систему матчинга товаров с помощью трансформеров и LLM

Привет! Мы — команда ML-разработчиков «Магнит Фудтех», входящей в состав бизнес-группы Магнит OMNI. Меня зовут Виктория Костерина, я тимлид команды. В этой статье мы вместе с моим коллегой, ML-инженером Богданом Тонанайским, рассказываем, как создавали систему автоматического сопоставления товаров между ассортиментом конкурентов и товарами «Магнита».

продолжить чтение

Как мы адаптировали LLM для русского языка

История про токенизацию, научные статьи и production realityКак мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed. В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли.Мы - это я и мой друг =)Как всё началосьАвгуст 2025. Мы работаем над MAWO - системой fine-tuning для русскоязычных LLM. У нас есть модель Qwen3-0.6B. Почему именно 0.6B, а не 8B или 70B?

продолжить чтение

Разведочный анализ текстовых данных (EDA for text data)

Во время работы с данными важно понять, что они собой представляют. Не всегда на первый взгляд можно понять их структуру, свойства и особенности. В частности, это касается и текстовых данных, которые сами по себе не имеют четкой структуры. В этой статье мы рассмотрим этапы анализа текстовых данных, а также подходы при работе с датасетами для таких популярных задач NLP, как классификация и NER/POS. В качестве основных инструментов будут использоваться Python и Jupyter Notebook. СодержаниеПервичный анализ датасетаДубликаты и пропуски

продолжить чтение

Обзор проблем и решений в ризонинговых LLM. Часть 3

В первой части мы рассмотрели ключевые проблемы логического рассуждения в LLM и показали, в чём именно модели ошибаются.Во второй части узнали, какие существуют методы решения LLM логических задач, а также посмотрели на их сильные и слабые стороны. В этой – мы обсудим, как модели иногда идут вразрез с собственной логикой и что эксперты предпринимают, чтобы это исправить.ЛОГИЧЕСКАЯ СОГЛАСОВАННОСТЬ

продолжить чтение

Поговорим о продвинутых техниках NLP

Обработка естественного языка (NLP) — увлекательная область искусственного интеллекта, которая позволяет компьютерам понимать, интерпретировать человеческую речь и реагировать на нее. В этой статье мы рассмотрим передовые методы NLP, включая трансформирующие модели, механизмы внимания и контекстуальные встраивания. Мы также приведем примеры кода с использованием Python и популярных библиотек NLP.

продолжить чтение

Мир после трансформеров: закат и новый рассвет больших языковых моделей

Даже если вы избегали ChatGPT и его многочисленных аналогов, то наверняка сталкивались с обработкой текстов ИИ хотя бы в поисковой выдаче. Большие языковые модели (LLM) сейчас применяют повсюду. Проблема в том, что все они построены на одной и той же архитектуре трансформеров, поэтому страдают от общих недостатков. В этой статье эксперты из лаборатории искусственного интеллекта компании «Криптонит» расскажут о существующих ограничениях LLM, наметившихся путях их преодоления и о том, какими будут следующие большие языковые модели.

продолжить чтение

Как мы дистиллировали Qwen для автоматического протоколирования совещаний

Протоколирование совещаний — важная часть корпоративной коммуникации: протоколы позволяют быстро восстановить ключевые моменты, не переслушивая часовые записи. Нас зовут Андрей Ситников и Максим Шкут, мы работаем DS в команде департамента анализа данных и моделирования ВТБ, занимаемся задачей автоматического протоколирования встреч. Мы реализуем ее с помощью LLM-модели Qwen. В этой статье расскажем, как мы оптимизировали inference, сохранив качество генерации протоколов.Эта статья – саммари нашего выступления на Data Fest 2025. Запись выступления вы можете найти по ссылке

продолжить чтение

Как мы в Авито сделали свою LLM — A-vibe

Всем привет! Меня зовут Анастасия Рысьмятова, я руковожу юнитом LLM в Авито.В этой статье я расскажу, как мы с командой создали и адаптировали нашу большую языковую модель A-vibe: зачем решили развивать собственную LLM, как построили токенизатор, собрали датасеты, провели SFT и RL и что получили в итоге. Поделюсь основными экспериментами и покажу наши результаты.Сегодня мы выпустили в опенсорс свое семейство генеративных моделей – A-Vibe и A-Vision, статья приурочена к этому событию.

продолжить чтение

Краткий обзор 10 локальных UI для LLM

Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):Open WebUILM StudioMsty StudioLibrechat

продолжить чтение

Разработка MCP-сервера на примере CRUD операций

Model Context Protocol (MCP) — это открытый протокол, разработанный компанией Anthropic. Он призван унифицировать способ взаимодействия между LLM и сторонними сервисами, инструментами и источниками данных.До появления MCP каждому разработчику приходилось пилить свой велосипед для каждого сервиса. При этом один API требовал одного формата, другой — совершенно другого. А в случае изменений сервиса приходилось менять и клиентскую сторону. В общем проблем было много. MCP же оставил большинство этих проблем позади.В данной статье на примере простых CRUD-операций разберем, что такое MCP-сервер, как его создать и как подружить с LLM.

продолжить чтение

1...345678...16
Rambler's Top100