Как подготовить данные к анализу: очистка и предобработка, без которых всё остальное не имеет смысла
Привет, Хабр! Меня зовут Руслан Каллагов, я системный аналитик в Лаборатории Globus — партнёре Нетологии по стажировкам на курсах ИТ-профессий. Уже 4,5 года я работаю в проектировании программного обеспечения и верю в инженерный подход к подготовке данных. Специально для хабровчан собрал практическое руководство по подготовке, очистке и предобработке данных для анализа и машинного обучения. В нём объясняю ключевые этапы подготовки данных, показываю примеры кода, даю чек-листы и алгоритмы действий.
Проверка на Data Poisoning в MLSecOps
В первой обзорной статье на Хабре про MLSecOps мы сформировали общее понимание этого нового направления в IT, узнали про основные навыки, необходимые инженерам и архитекторам MLSecOps для успешной работы, подсветили яркое будущее и перспективы этой профессии.Cсылка на статью: MLSecOps: защита машинного обучения в эпоху киберугроз Давайте сегодня погрузимся в практику и разберем один из наиболее часто задаваемых мне вопросов: «Как защищаться от отравления данных? Как проверять данные на Data Poisoning»?
Основы очистки данных в data science
В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.

