feature engineering.

Одна строка — много объектов: как агрегировать эмбеддинги для ML-моделей

КороткоИногда в задаче машинного обучения одна строка датасета соответствует не одному объекту, а целому набору связанных объектов.Например:день по акции -> много новостей пользователь -> много комментариев товар -> много фотографий клиент -> много обращений в поддержку сессия -> много событийКаждый такой объект можно представить эмбеддингом. Новость — текстовым эмбеддингом, картинку — визуальным эмбеддингом, событие — вектором признаков или embedding‑представлением.

продолжить чтение

NEWAVE. Делаем интеллектуальный ретривал музыки

продолжить чтение

Линейная регрессия, встряска рейтинга и первое место. Часть 1: Ёлочка, живи

CatBoost строит модель "выживаемости" ёлки (в представлении GigaChat)ВведениеВ то время как космические корабли бороздят.

продолжить чтение

Обработка геоданных для ML-задач. Часть 2: пространственные объединения и расстояния

Эта статья продолжает наше обсуждение пространственных признаков в Python. Вы можете прочитать первую часть текста здесь

продолжить чтение

Геопространственная обработка признаков

Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света.

продолжить чтение