Метрики упали в лужу
Нередкая ситуация, когда ваша модель спокойно себе крутится в проме, но внезапно прибегают аналитики с криками «у нас упало качество, посмотрите что может быть не так».Причин может быть множество, но сегодня я расскажу про одну из самых распространенных причин падения качества модели - Distribution shift.
Рейтинг языков программирования на GitHub: анализ 2024–2025 в JupyterLab и Anaconda
Автор: Иван Богданов, Технический писатель Каждый раз, когда выходит новый рейтинг языков программирования типа TIOBE или RedMonk, в комментариях начинается одно и то же. Python не может быть первым, Rust переоценен, TypeScript вообще непонятно где. Рейтинги считают по-разному: одни смотрят на поисковые запросы, другие — на упоминания в репозиториях и на форумах, третьи проводят опросы среди разработчиков. Каждый метод дает свой результат, и у каждого найдутся критики.
Одна функция, которая заменила аналитика
Алексей — финансовый директор. Умный, занятой, не любящий ждать. Каждый понедельник он открывает Excel с продажами за прошлую неделю и задаёт вопросы.Но Excel — не собеседник. Алексей идёт к аналитику.Аналитик строит сводную, ищет причины, пишет письмо. Иногда это занимает полдня. Иногда — до вторника.Я посчитал: среднее время от вопроса Алексея до ответа было 2 часа 17 минут. Сейчас — 4 минуты 30 секунд. Алексей пишет вопрос в чат, получает ответ с цифрами и объяснением.Расскажу, как это работает. Без BI-систем, без баз данных, без аналитика в цепочке — просто Python и Claude API.Что за задача
Pandas на Python: От чтения CSV до сложной аналитики за 1 статью
1. Введение и быстрый старт: Excel на максималкахДавайте начистоту. Если вы когда-нибудь пытались анализировать табличные данные с помощью стандартных списков и словарей Питона, вы знаете, какая это боль. Циклы внутри циклов, куча проверок на пустоту, простыни кода ради простейшей группировки...А если вы пробовали открыть CSV-файл на пару-тройку миллионов строк в обычном Excel — ну, вы наверняка помните этот зависший белый экран и звук взлетающего кулера.Так вот, Pandas
Зачем аналитику математика
Если ваша работа ограничивается построением дашбордов в Excel и ответами на вопрос «сколько заработали вчера» – матан вам и правда не нужен, но если вы хотите понимать, почему метрики ведут себя именно так, а не иначе, и тем более – прогнозировать их поведение, то без производных, логарифмов и пределов вы не обойдетесь. В интернете тонны статей «Математика для аналитиков», но они либо уходят в дебри интегрирования по частям, либо ограничиваются уровнем «логарифм – это штука, которая делает большие числа маленькими». Давайте попробуем найти золотую середину.1 Логарифмы
Книга «Python для инженерных задач»
Приветствуем, коллеги.Расскажем вам о нашей долгожданной новинке – «Python для инженерных задач». Эту книгу написал уважаемый Евгений Ильин @jenyay, кандидат технических наук, преподаватель Московского Авиационного Института. В основу книги легли его университетские наработки, объём более чем внушительный – 672 страницы. Тем не менее, поскольку эта книга ориентирована на самую широкую аудиторию инженеров, мы решили выпустить её в серии «Самоучитель», из которой вам также может быть известен знаменитый «
5 техник, применяемых в анализе временных рядов, которые должен знать каждый. Часть 2
В этом руководстве мы будем разбираться, как повысить качество прогнозирования с помощью машинного обучения, используя точные методы разделения данных, перекрестную проверку временных рядов, конструирование признаков и многое другое!Конструирование признаков для временных рядов: создание идеального рецепта данныхВ отличие от традиционных наборов данных, где объекты часто остаются статичными, данные временных рядов обладают уникальными временными паттернами, которые необходимо использовать для извлечения значимых признаков.
Scikit-learn теперь умеет в пайплайны: что изменилось и как работать с библиотекой в 2025 году
Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.
Гайд по Scikit-learn в 2025: собираем пайплайн, который не сломается
Scikit-learn — это одна из основных Python-библиотек для машинного обучения. Её подключают в прикладных проектах, AutoML-системах и учебных курсах — как базовый инструмент для работы с моделями. Даже если вы давно пишете на PyTorch или CatBoost, в задачах с табличными данными, скорее всего, всё ещё вызываете fit, predict, score — через sklearn.В 2025 году в библиотеку добавили несколько важных обновлений: доработали работу с пайплайнами, подключили полную поддержку pandas API, упростили контроль за экспериментами.
Основы очистки данных в data science
В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе. Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.

