Pipeline в машинном обучении: как создавать сложные модели без боли и утечек данных
Привет, Хабр! Меня зовут Андрей Бирюков. Я — независимый эксперт в области ИТ и ИБ, преподаю в учебных центрах и пишу статьи и книги. И сегодня мы поговорим об использовании Pipeline для задач машинного обучения. Давайте представим, что вы решили построить дом. Можно нанять отдельных рабочих для фундамента, стен, крыши и коммуникаций, а затем попытаться координировать их работу самостоятельно. А можно нанять генерального подрядчика, который возьмет на себя все этапы, гарантирует качество на каждом шаге и сдаст готовый дом «под ключ».
Ускоряем и оптимизируем numpy, pandas, scipy и sklearn
С момента публикации статьи на Хабре «Импортозамещаем numpy, pandas, scipy и sklearn» прошло почти три года. В течение этого времени я приостановил работу над проектом из-за нехватки времени, ресурсов и сил. К тому же, меня расстроило, что не смог выполнить просьбу пользователя @N-Cube, который активно интересовался моей библиотекой и хотел ускорить работу своего Jupyter Notebook.
Множественная регрессия: Расширяем горизонты прогнозирования
В предыдущей статье разобрали простую линейную регрессию, где целевая переменная зависела от одного фактора, но в реальной жизни всё сложнее. Представьте, что мы прогнозируем стоимость квартиры: она зависит не только от площади, но и от количества комнат, этажа, района, года постройки, наличия парковки и десятков других важных характеристик.Множественная линейная регрессия – это естественное расширение простой линейной регрессии на случай с несколькими независимыми переменными (предикторами), и она позволяет:Учитывать комплекс факторов
Где разместить новую станцию зарядки для электромобилей или как работать с геоэмбеддингами
В этой статье мы рассмотрим решение задачи поиска оптимальной локации для электрозарядных станций с помощью открытых данных, методов геоаналитики и алгоритмов классического машинного обучения.Что такое оптимальная локация?Под оптимальной локацией для размещения любого объекта инфраструктуры понимают такую локацию, где она будет пользоваться спросом у конечных потребителей. По опросам BCG EV Charging Survey
Scikit-learn теперь умеет в пайплайны: что изменилось и как работать с библиотекой в 2025 году
Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.
Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается
Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.

