подготовка данных.

Выходные — для развития: Пара открытых книг и ресурсов для (глубокого) погружения в инженерию данных

Недавно мы в Beeline Cloud писали о том, как гонка за «общим ИИ» вывела дата-сайентистов и специалистов по машинному обучению в топ самых высокооплачиваемых профессий. Не отстают от них и инженеры данных: ниже рассказываем, за что компании высоко ценят таких специалистов и какую открытую литературу можно почитать начинающим дата-инженерам на старте карьеры и продвинутым специалистам — чтобы «держать руку на пульсе».

продолжить чтение

Что делает shuffle=True и как не сломать порядок

Привет, Хабр! Сегодня рассмотрим невинный на первый взгляд параметр shuffle=True в train_test_split.Под «перемешать» подразумевается применение псевдо-рандомного пермутационного алгоритма (обычно Fisher–Yates) к индексам выборки до того, как мы режем её на train/test. Цель — заставить train-и-test быть независимыми и одинаково распределёнными (i.i.d.). В scikit-learn эта логика зашита в параметр shuffle почти всех сплиттеров. В train_test_split он True по умолчанию, что прямо сказано в документации — «shuffle bool, default=True».train_test_split

продолжить чтение

Менеджер данных: как новая роль изменила подход к работе с ML

Меня зовут Вера Романцова, я работаю в 2ГИС в команде компьютерного зрения. Мы создаём ML-модели и сервисы, которые автоматизируют работу с картами и данными. Но перед тем, как обучить модель и выкатить сервис, есть ещё много работы по сбору датасетов и разработке моделей. И обычно все эти задачи выполняли ML-инженеры. В один из моментов моя будущая команда пришла к выводу, что для эффективных процессов разметки, сбора и валидации данных нужна отдельная роль — менеджер данных. Этим первопроходцем в нашей компании стала я. В этой статье я расскажу:Кто такой менеджер данных и чем он занимается.

продолжить чтение