- BrainTools - https://www.braintools.ru -
Линейные модели — один из первых классов алгоритмов, с которым знакомятся в машинном обучении [1]. Несмотря на свою простоту, они широко используются на практике: в кредитном скоринге, прогнозировании цен, анализе рисков и везде, где важна интерпретируемость результата.
Всем привет! Это Данила Ляпин, наставник курса «Специалист по Data Science» [2]. В этой подборке вы найдёте материалы о самих линейных моделях, о метриках качества классификации и регрессии, а также о типичных проблемах, с которыми сталкиваются на практике, — дисбалансе классов и мультиколлинеарности. Материалы помогут углубиться в тему во время учёбы или подготовиться к собеседованию. Некоторые ссылки ведут на разделы больших курсов по ML, которые можно пройти целиком.

Бесплатный мини-курс от Kaggle, который показывает, как быстро собрать первый ML‑проект на Python с scikit-learn. Рассчитан примерно на 3 часа. Короткие уроки помогут познакомиться с базовыми понятиями ML: деревьями решений, валидацией моделей, увеличением и уменьшением выборки, а также случайным лесом — всё с практическими упражнениями прямо на платформе. Курс хорошо подходит новичкам: единственное требование — базовое знание Python.
Перейти → [3]

Бесплатный мини-курс от Kaggle, продолжение Intro to Machine Learning, рассчитанный примерно на 4 часа. Курс посвящён практическим навыкам, которые нужны при работе с реальными данными: обработка пропусков и категориальных признаков, построение пайплайнов, кросс-валидация, XGBoost и предотвращение утечки данных. Всё также с примерами кода и практическими упражнениями.
Перейти → [4]

Глава из учебника по машинному обучению от Школы анализа данных. Авторы объясняют, какие модели называются линейными, почему они работают и в каких случаях их стоит использовать. Разбираются задачи регрессии и классификации, функции потерь, регуляризация, метод наименьших квадратов и логистическая регрессия. Материал включает примеры кода, визуализации, задачи для самопроверки и практическую работу с готовым ноутбуком. Для работы с учебником понадобятся знания линейной алгебры, анализа и теории вероятностей.
Перейти → [5]

Максимально практический курс для тех, кто уже знаком с основами ML. В этом разделе авторы объясняют линейную и логистическую регрессию, метод наименьших квадратов, принцип максимального правдоподобия и разложение ошибки [6] на смещение и разброс. Регуляризация разбирается на примерах классификации микрочипов и анализа отзывов к фильмам. Отдельный раздел про валидационные кривые помогает понять, нужно ли усложнять модель или добавлять данные. В конце — плюсы и минусы линейных моделей, домашнее задание и список полезных ресурсов.

Scikit-learn — одна из самых популярных библиотек классического машинного обучения на Python. Раздел про линейные модели для регрессии и классификации: методы, где предсказание строится как линейная комбинация признаков. Это один из самых практичных и часто используемых разделов: быстро, интерпретируемо, хорошо работает как сильный бейзлайн.

Название полностью описывает содержание. Это чек-лист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Статья не рассчитана на изучение тем с нуля: если вы не слышали про решающие деревья и градиентные бустинги, лучше обратиться к полноценным лекциям.
Перейти → [11]

Автор пошагово объясняет, как строится ROC-кривая и вычисляется площадь под ней, разбирает смысл метрики, подходы к её оптимизации и распространённые заблуждения. Текст написан доступно, с множеством примеров. В конце автор предлагает пройти тест на знание AUC ROC и обсудить задачи в комментариях — туда тоже стоит заглянуть, если хочется глубже разобраться в теме.
Перейти → [12]

Лекция «Линейные методы классификации и регрессии: метод стохастического градиента» из курса по машинному обучению. От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей, языка программирования Python. Знание математической статистики, методов оптимизации желательно, но не обязательно. Посмотреть программу курса и скачать презентацию к лекции можно на сайте.
Перейти к лекции [13] → [14]

Материал подан в виде визуальных схем и формул с минимумом текста — скорее шпаргалка, чем полноценное объяснение. Может быть полезен для подготовки к собеседованию как способ быстро освежить ключевые концепции, или как дополнение к обучению для новичков. На странице объясняется линейная и полиномиальная регрессия, регуляризация, логистическая регрессия, метод опорных векторов и «ядерный трюк», а также линейный дискриминантный анализ.
Перейти → [15]

Несбалансированные данные — одна из наиболее распространенных проблем, с которой сталкиваются в машинном обучении. В статье рассматриваются методы сбалансирования: взвешивание классов, увеличение и уменьшение выборки, генерация синтетических данных (SMOTE, ADASYN), ансамблирование и другие — всё с примерами кода на Python.
Перейти → [16]

Вопрос о том, что делать при дисбалансе классов, часто задают на собеседованиях. Автор объясняет, как подойти к ответу грамотно: почему важно сначала уточнить природу задачи, функцию ошибки и контекст, а не сразу переходить к решению. Затем на модельных задачах показывает, как геометрия данных, распределение классов и калибровка модели влияют на выбор стратегии.
Перейти → [17]

Короткая статья-размышление о том, всегда ли несбалансированность классов является проблемой. Автор разбирает, какие модели действительно страдают от дисбаланса, а какие нет, когда сэмплирование оправдано и как выбор метрик влияет на значимость этой проблемы.
Перейти → [18]

Статья рассказывает о проблеме мультиколлинеарности признаков в линейных моделях машинного обучения: когда признаки сильно коррелируют друг с другом, коэффициенты модели становятся неустойчивыми и могут противоречить бизнес-логике. Автор объясняет это на примере построения поведенческой модели кредитного скоринга.
Чтобы устранить мультиколлинеарность, предлагается использовать графовый подход на основе алгоритма Брона–Кербоша. В данном кейсе это помогло улучшить значение метрики Average Precision на 6%. Новичкам статья может быть сложновата: лучше уже быть знакомыми с теорией графов и уверенно владеть основами ML.
Перейти → [19]
Автор: Danila_Ly
Источник [20]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/26169
URLs in this post:
[1] обучении: http://www.braintools.ru/article/5125
[2] «Специалист по Data Science»: https://practicum.yandex.ru/data-scientist/?utm_source=content&utm_medium=media&utm_campaign=cv-resources&utm_content=25-02-26
[3] Перейти →: https://www.kaggle.com/learn/intro-to-machine-learning
[4] Перейти →: https://www.kaggle.com/learn/intermediate-machine-learning
[5] Перейти →: https://education.yandex.ru/handbook/ml/article/linear-models
[6] ошибки: http://www.braintools.ru/article/4192
[7] Читать на русском →: https://habr.com/ru/companies/ods/articles/323890/
[8] Читать на английском →: https://mlcourse.ai/book/topic04/topic04_intro.html#
[9] Читать на русском →: https://scikit-learn.ru/stable/modules/linear_model.html
[10] Читать на английском →: https://scikit-learn.org/stable/modules/linear_model.html
[11] Перейти →: https://habr.com/ru/articles/926398/
[12] Перейти →: https://alexanderdyakonov.wordpress.com/2017/07/28/auc-roc-%D0%BF%D0%BB%D0%BE%D1%89%D0%B0%D0%B4%D1%8C-%D0%BF%D0%BE%D0%B4-%D0%BA%D1%80%D0%B8%D0%B2%D0%BE%D0%B9-%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA/
[13] Перейти к лекции: https://www.youtube.com/live/YaJ-QfSHl3o?si=-RvRcjrxi_yF2cyD
[14] →: http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29
[15] Перейти →: https://illustrated-machine-learning.github.io/#/machine-learning/linear-algorithms
[16] Перейти →: https://habr.com/ru/companies/otus/articles/769242/
[17] Перейти → : https://alexanderdyakonov.wordpress.com/2021/05/27/imbalance/
[18] Перейти →: https://habr.com/ru/post/349078/
[19] Перейти →: https://habr.com/ru/companies/abdigital/articles/592493/
[20] Источник: https://habr.com/ru/companies/yandex_praktikum/articles/1001402/?utm_campaign=1001402&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.