pandas.

Метрики упали в лужу

Нередкая ситуация, когда ваша модель спокойно себе крутится в проме, но внезапно прибегают аналитики с криками «у нас упало качество, посмотрите что может быть не так».Причин может быть множество, но сегодня я расскажу про одну из самых распространенных причин падения качества модели - Distribution shift.

продолжить чтение

Рейтинг языков программирования на GitHub: анализ 2024–2025 в JupyterLab и Anaconda

Автор: Иван Богданов, Технический писатель Каждый раз, когда выходит новый рейтинг языков программирования типа TIOBE или RedMonk, в комментариях начинается одно и то же. Python не может быть первым, Rust переоценен, TypeScript вообще непонятно где. Рейтинги считают по-разному: одни смотрят на поисковые запросы, другие — на упоминания в репозиториях и на форумах, третьи проводят опросы среди разработчиков. Каждый метод дает свой результат, и у каждого найдутся критики.

продолжить чтение

Одна функция, которая заменила аналитика

Алексей — финансовый директор. Умный, занятой, не любящий ждать. Каждый понедельник он открывает Excel с продажами за прошлую неделю и задаёт вопросы.Но Excel — не собеседник. Алексей идёт к аналитику.Аналитик строит сводную, ищет причины, пишет письмо. Иногда это занимает полдня. Иногда — до вторника.Я посчитал: среднее время от вопроса Алексея до ответа было 2 часа 17 минут. Сейчас — 4 минуты 30 секунд. Алексей пишет вопрос в чат, получает ответ с цифрами и объяснением.Расскажу, как это работает. Без BI-систем, без баз данных, без аналитика в цепочке — просто Python и Claude API.Что за задача

продолжить чтение

Pandas на Python: От чтения CSV до сложной аналитики за 1 статью

1. Введение и быстрый старт: Excel на максималкахДавайте начистоту. Если вы когда-нибудь пытались анализировать табличные данные с помощью стандартных списков и словарей Питона, вы знаете, какая это боль. Циклы внутри циклов, куча проверок на пустоту, простыни кода ради простейшей группировки...А если вы пробовали открыть CSV-файл на пару-тройку миллионов строк в обычном Excel — ну, вы наверняка помните этот зависший белый экран и звук взлетающего кулера.Так вот, Pandas

продолжить чтение

Зачем аналитику математика

Если ваша работа ограничивается построением дашбордов в Excel и ответами на вопрос «сколько заработали вчера» – матан вам и правда не нужен, но если вы хотите понимать, почему метрики ведут себя именно так, а не иначе, и тем более – прогнозировать их поведение, то без производных, логарифмов и пределов вы не обойдетесь. В интернете тонны статей «Математика для аналитиков», но они либо уходят в дебри интегрирования по частям, либо ограничиваются уровнем «логарифм – это штука, которая делает большие числа маленькими». Давайте попробуем найти золотую середину.1 Логарифмы

продолжить чтение

Книга «Python для инженерных задач»

Приветствуем, коллеги.Расскажем вам о нашей долгожданной новинке – «Python для инженерных задач». Эту книгу написал уважаемый Евгений Ильин @jenyay, кандидат технических наук, преподаватель Московского Авиационного Института. В основу книги легли его университетские наработки, объём более чем внушительный – 672 страницы. Тем не менее, поскольку эта книга ориентирована на самую широкую аудиторию инженеров, мы решили выпустить её в серии «Самоучитель», из которой вам также может быть известен знаменитый «

продолжить чтение

5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 2

В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое!Конструирование признаков для временных рядов: создание идеального рецепта данныхВ отличие от традиционных наборов данных, где объекты часто остаются статичными, данные временных рядов обладают уникальными временными паттернами, которые необходимо использовать для извлечения значимых признаков.

продолжить чтение

Scikit-learn теперь умеет в пайплайны: что изменилось и как работать с библиотекой в 2025 году

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.

продолжить чтение

Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается

Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.

продолжить чтение

Основы очистки данных в data science

В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.

продолжить чтение

12