data leakage.

Pipeline в машинном обучении: как создавать сложные модели без боли и утечек данных

Привет, Хабр! Меня зовут Андрей Бирюков. Я — независимый эксперт в области ИТ и ИБ, преподаю в учебных центрах и пишу статьи и книги. И сегодня мы поговорим об использовании Pipeline для задач машинного обучения. Давайте представим, что вы решили построить дом. Можно нанять отдельных рабочих для фундамента, стен, крыши и коммуникаций, а затем попытаться координировать их работу самостоятельно. А можно нанять генерального подрядчика, который возьмет на себя все этапы, гарантирует качество на каждом шаге и сдаст готовый дом «под ключ».

продолжить чтение