разведочный анализ данных.

Разведочный анализ текстовых данных (EDA for text data)

Во время работы с данными важно понять, что они собой представляют. Не всегда на первый взгляд можно понять их структуру, свойства и особенности. В частности, это касается и текстовых данных, которые сами по себе не имеют четкой структуры. В этой статье мы рассмотрим этапы анализа текстовых данных, а также подходы при работе с датасетами для таких популярных задач NLP, как классификация и NER/POS. В качестве основных инструментов будут использоваться Python и Jupyter Notebook. СодержаниеПервичный анализ датасетаДубликаты и пропуски

продолжить чтение

Автоматизация разведочного анализа данных (EDA) с помощью Python

Всем привет! Меня зовут Константин Некрасов, я работаю дата-сайентистом в Газпромбанке. Хочу рассказать про инструмент, который серьезно упростил мою повседневную работу с данными, и поделиться им.Если вы когда-нибудь занимались машинным обучением, то знаете — перед тем как строить модель, нужно как следует изучить свои данные. Этот этап называется EDA (Exploratory Data Analysis), или разведочный анализ данных (РАД). Он критически важен — именно здесь мы находим скрытые закономерности, выдвигаем первые гипотезы и понимаем, как лучше обработать данные для будущей модели.

продолжить чтение

Rambler's Top100