Машинное обучение в бизнесе: подборка бесплатных курсов и материалов. machinelearning.. machinelearning. ml.. machinelearning. ml. Машинное обучение.

Подборка посвящена A/B-тестированию, бутстрапу, кросс-валидации и ансамблевым методам — эти четыре темы образуют ядро практического Data Science. Они позволяют формулировать и проверять бизнес‑гипотезы, количественно оценивать неопределённость результатов, гарантировать обобщающую способность моделей машинного обучения и существенно повышать их точность и стабильность. 

Всем привет! Это Данила Ляпин, наставник курса «Специалист по Data Science». Ниже вы найдете статьи с реальными кейсами, учебники, видеолекции, а также гайды с примерами кода и ноутбуками для практики. Здесь есть материалы и для специалистов с опытом, и для абсолютных новичков. 

«Выживет сильнейший: как с помощью A/B‑тестов проверяют гипотезы», Блог Практикума

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 1

Иллюстрированная статья для новичков, с которой можно начать знакомство с A/B-тестированием. Сначала вы узнаете, что такое A/B-тестирование и кому оно нужно, затем разберетесь, какие задачи можно решить с его помощью. Также вы рассмотрите три этапа работы: подготовку, непосредственно проведение тестирования и интерпретацию результатов.

Перейти →

«Как устроено A/B-тестирование в Авито», Хабр AvitoTech

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 2

А/B эксперименты — ключевой инструмент принятия решений во всём бигтехе. Так, например, команда Авито собирает сотни метрик и детализирует их до бизнес-разрезов: вертикали, регионы, авторизованные пользователи и т. д. Делается это автоматизированно с помощью единой платформы для экспериментов. 

В статье один из сотрудников подробно рассказывает, как устроена платформа и делится другими интересными техническими деталями. Подача достаточно лёгкая — поймёт даже новичок. Также полезно будет заглянуть в комментарии, где автор развернуто отвечает на вопросы читателей.

Перейти →

«Бутстреп и А/Б тестирование», Хабр X5Tech

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 3

Авторы рассказывают, что такое Bootstrap, когда он незаменим и в чём его недостатки. А также как с его помощью оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. 

Чтобы продемонстрировать процесс наглядно, предлагается легенда: вы работаете аналитиком в сервисе по доставке заказов, и вам нужно оценить, как быстро выполняются заказы. Авторы предлагают формулы, примеры кода и графики, которые помогут пошагово решить задачу.

Перейти →

Bootstrapping and Resampling in Statistics with Example, MarinStatsLectures

В видео на простом примере объясняется основная идея бутстрапа, принцип его работы и отличие от параметрического подхода. Также преподаватель рассказывает, зачем этот метод нужен и в каких задачах особенно полезен. Видео на английском языке, есть автоматически-сгенерированные субтитры.

Bootstrap Hypothesis Testing in Statistics with Example, MarinStatsLectures

В видео объясняется, как применять метод бутстрапа для проверки гипотез. На примере веса цыплят на разных диетах преподаватель пошагово разбирает все элементы теста: нулевую гипотезу, выбор тестовой статистики, построение распределения через повторные выборки и вычисление p-value. Видео на английском языке, есть автоматически-сгенерированные субтитры.

Перейти →

How to Calculate Bootstrap Confidence Intervals For Machine Learning Results in Python, Machine Learning Mastery

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 4

Короткая статья, в которой объясняется, как использовать бутстрап для расчёта доверительных интервалов при оценке качества моделей машинного обучения. Автор включил примеры с псевдокодом и практический пример на Python с использованием библиотеки scikit-learn. На английском языке.

Перейти →

A/B Testing, Bytepawn

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 5

Коллекция статей о A/B-тестировании от практика с большим опытом. Автор разбирает продвинутые техники проведения экспериментов, делится кейсами из Google, Bing, Netflix и Alibaba и анализирует инструменты для A/B-тестирования. На английском языке.

Перейти →

A/B Testing, GitBook

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 6

Глава из учебника по Data Science от Cornell University, в которой объясняется A/B-тестирование для сравнения двух распределений. На примере веса новорожденных у курящих и некурящих матерей авторы показывают, как провести пермутационный тест и построить доверительный интервал для разницы средних значений. Материал включает код на Python с визуализациями. На английском языке.

Перейти →

«Кросс-валидация», Викиконспекты 

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 7

Короткая статья из вики ИТМО о кросс-валидации — методе оценки качества моделей машинного обучения. В ней даётся определение и разбираются основные разновидности: Hold-Out, k-fold, Leave-One-Out и другие варианты с их плюсами и минусами. Для каждого метода есть формулы и схемы разбиений. 

Перейти →

«Кросс-валидация», Яндекс Образование

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 8

Глава из учебника по машинному обучению с большим количеством примеров, задачами для размышления и полезными ссылками. Подробно разбираются методы кросс-валидации: Hold-out, стратификация, k-Fold и stratified k-Fold, Leave-One-Out. Отдельные разделы посвящены частым ошибкам и даталикам — ситуациям, когда тестовые данные попадают в обучающую выборку

Перейти → 

Cross Validation in Machine Learning, Geeks for Geeks

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 9

Статья о кросс-валидации, в которой разбираются основные методы: Hold-out, Leave-One-Out, стратификация и k-Fold кросс-валидация с объяснениями, когда какой метод применять. Включает пошаговую реализацию k-Fold на scikit-learn, сравнительную таблицу методов и обсуждение преимуществ и недостатков каждого подхода. На английском языке.

Перейти →

A Gentle Introduction to the Bootstrap Method, Machine Learning Mastery

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 10

Статья для новичков. Автор объясняет, как работает метод, что такое out-of-bag образцы и как выбирать параметры (размер выборки и количество повторений). Включён пример с датасетом из 6 наблюдений и готовый код. В конце автор делится учебниками и полезными ссылками. На английском языке.

Перейти → 

An Introduction to the Bootstrap Method, Lorna Yen

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 11

Статья фокусируется на ключевых концепциях бутстрапа, а не на его применении. Автор объясняет метод ресемплинга, разбирает мотивацию, с которой Брэдли Эфрон ввёл бутстрап в 1979 году, и показывает общую идею метода. Статья требует базовых знаний статистики и содержит множество формул. В конце автор делится полезными книгами и другими ресурсами. На английском языке.

Перейти →

A/B Testing – A complete guide to statistical testing, Towards Data Science

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 12

Подробный гид по статистическим тестам для A/B-тестирования. Автор объясняет разницу между дискретными метриками (кликабельность, конверсия, показатель отказов) и непрерывными (средний доход, длительность сессии), показывает, какой тест применять в каждом случае. 

Разбираются точный тест Фишера и критерий хи-квадрат Пирсона, z-критерий Фишера, t-критерий Стьюдента, t-критерий Уэлча, а также U-критерий Манна-Уитни для ненормальных распределений. Есть ссылка на ноутбук с примерами. На английском языке.

Перейти →

«Бэггинг и случайный лес. Ключевые особенности и реализация с нуля на Python», Хабр Егора Захаренко

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 13

Статья о популярном алгоритме машинного обучения. Автор объясняет, почему случайный лес часто не уступает более сложным алгоритмам, какие у него есть преимущества и недостатки. Статья содержит формулы, примеры кода на Python и графики с визуализациями. Есть ссылка на ноутбук.

Перейти →

«Ансамбли в машинном обучении», Яндекс Образование

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 14

Авторы подробно рассматривают ансамблевые методы машинного обучения, которые объединяют несколько моделей для повышения точности предсказаний: бэггинг, бустинг и стекинг. В конце предлагается сравнительная таблица, которая помогает определиться, какой метод использовать в разных случаях.

Перейти → 

Ensembles and random forest. Part 2. Random Forest, ML Course

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 15

Подробная статья о случайном лесе из открытого курса по машинному обучению. Авторы объясняют алгоритм построения леса, сравнивают его с решающими деревьями и бэггингом на примерах с кодом и визуализациями, разбирают ключевые параметры и их влияние на точность. Также в статье можно найти практический пример предсказания оттока клиентов, список плюсов и минусов алгоритма и полезные ресурсы. На английском языке.

Перейти → 

Random Forest using GridSearchCV

Машинное обучение в бизнесе: подборка бесплатных курсов и материалов - 16

Решение самой популярной задачи классификации на Kaggle — предсказание выживания на Титанике. В ноутбуке проведен EDA, построены визуализации, обучена модель случайного леса. Код на Python с использованием pandas, scikit-learn и seaborn. На английском языке.

Перейти → 

Автор: Danila_Ly

Источник

Rambler's Top100