nlp.

Машинное обучение для работы с текстами: подборка бесплатных курсов и материалов

Привет! Это Данила Ляпин, наставник курса «Специалист по Data Science». Собрал подборку материалов по обработке естественного языка — она охватывает путь от базовых концепций NLP до трансформеров и BERT. Все материалы бесплатны и проверены на практике. Главное — двигаться последовательно, не пропускать основы и обязательно практиковаться на реальных задачах.Сourse in Natural Language Processing, YSDA

продолжить чтение

Оставлено в

NER не про токены: почему span важнее BIO

Дисклеймер.Все примеры текстов и сущностей в статье являются синтетическими и не содержат реальных персональных данных. Любые совпадения с реальностью случайны.ИнтроВ последние годы системы детекции и очистки персональных данных стали неотъемлемой частью NLP-пайплайнов, особенно в сценариях, где тексты передаются во внешние LLM-провайдеры и используются в LLM-агентах.На практике такие системы решают задачу детекции и маскирования персональных данных, среди них можно выделить: Presidio, LLM Guard,

продолжить чтение

Оставлено в

Query Prediction, или как мы отказались от ANN и полюбили обратный индекс

продолжить чтение

Оставлено в

Курс Natural Language Processing & LLMs — новый сезон

Всем привет! 10 февраля мы в очередной раз запускаем бесплатный онлайн-курс по обработке естественного языка (Natural Language Processing). Если кто-то не знал или забыл, это проект Open Data Science и компании MWS AI в партнерстве с ИТМО, МФТИ и ВШЭ, мы его проводим уже 10 сезонов.

продолжить чтение

Оставлено в

RAG-системы: что это такое, принципы работы, архитектура и ограничения

Привет, Habr!Эта статья — первый шаг в серии материалов о технологии RAG. Здесь мы разберёмся, что это вообще такое, зачем она появилась и почему её так часто требуют в вакансиях. К концу статьи у вас должно сложиться целостное понимание, когда RAG действительно нужен, какие архитектуры бывают и где чаще всего возникают ошибки.В статье мы разберём:почему вообще появился RAG;что такое RAG в общем смысле;основные способы расширения контекста модели;кому RAG действительно нужен (и кому нет);как устроен RAG и как работает в принципе;где и почему RAG чаще всего ломается;

продолжить чтение

Оставлено в

Как создать чат-бота с LLM?

Это уже четвертая часть статей по разработке AGI, и в предыдущих частях мы обсуждали теоретические и философские аспекты тех или иных вопросов, с ними всегда можно ознакомиться здесь. Сегодня же речь пойдёт о практике.Что получилось в иогеА зачем?

продолжить чтение

Оставлено в

Трёхстрочный Deep Learning: 20 примеров нейросетевой магии

В 2012 году команда из Торонто потрясла мир компьютерного зрения: их нейросеть AlexNet распознавала объекты на фотографиях лучше любого алгоритма, написанного вручную. Код занимал тысячи строк, требовал двух видеокарт и недель обучения. Сегодня вы можете превзойти AlexNet одной строкой кода, а модель загрузится за секунды.

продолжить чтение

Оставлено в

Как правильно ставить учебные цели. Разница между мечтой и целью

Кажется, что цели ставить легко: мы вроде бы чётко понимаем, чего хотим. «Хочу быть богатым». «Хочу начать ходить в зал и быть спортивным» и тд.Но то, что большинство целей и всех наших «с понедельника начну» проваливаются — тоже правда. А значит, легко не то, чтобы ставить цели — легко мечтать.А вот ставить цели, да так, чтобы действительно к ним прийти, и не увязнуть в прокрастинации, не так уж и легко.Тем, как правильно это делать, мы сегодня и займёмся.

продолжить чтение

Оставлено в

«Привет! Я [0.44, -0.91, 0.66…]» или как научить машину понимать смысл слов

Я уверен, вы видели модели машинного обучения, которые принимают текст и предсказывают, является ли он спамом. Аналогично модель может проанализировать отзыв о фильме и определить его тональность — положительную или отрицательную, понимать что «груша» связана с «яблоком» куда больше, чем с «теплоходом». Первое правило обучения любой модели машинного обучения — это преобразование входных данных в числа. Любой цифровой объект можно представить как некое число: картинку, текст, аудио или видеофайл — практически всё что угодно.

продолжить чтение