Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели
Знание классики - база любых собеседований на все грейды в DS!Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.Это вторая часть вопросов по classic ML, если вы не видели первую, то обязательно читайте (там разобрал основы мл, линейные модели, метрики классификации и регресии).А в этой части разберем:деревьяансамблиметрические моделикластеризацию
Бесконечность в ваших данных – power laws
Сегодня я хочу рассказать о теме, которая редко затрагивается в курсах по статистике, но порой встречается на практике. Она может сломать основания всех ваших привычных методов и даже ваш мозг. Имя этой теме – power laws или “степенные законы”. В этой статье я расскажу, что это такое, покажу примеры реальных данных и расскажу, что делать, если в ваших данных встретился степенной закон. Я постарался сделать текст читаемым для широкого круга людей и не нагружать его формулами.
Автоматизированное машинное обучение с помощью нашего Open Source фреймворка: задача о Титанике
Привет! Меня зовут Владимир Суворов, я Senior Data Scientist в Страховом Доме ВСК и core-разработчик нашей библиотеки машинного обучения OutBoxML.
ИИ в 3 фазы… снижение рисков, экономия времени и помощь человеку. Но …— нужно дать пользу уже на первом шаге
«В крупных компаниях ИИ не продается как технология. Он продается как снижение рисков, экономия времени и помощь человеку. Но чтобы его купили — нужно дать пользу уже на первом шаге. Вот как мы сделали это без бюджета, без команды и с одними только идеями»1. Введение: Не про ИИ. Про то, как заставить бизнес поверить в измененияПривет, Хабр!Меня зовут Алексей. Я руковожу направлением искусственного интеллекта в федеральном холдинге. Моя задача — не «внедрить нейросеть», а сделать так, чтобы люди перестали бояться изменений.Раньше сотрудникам требовалось 40–60 минут, чтобы создать документ выбраковки:
AI-ассистент в мире кода: как стать пилотом, а не пассажиром
Сегодня невозможно игнорировать тот факт, что AI-ассистенты, такие как ChatGPT, GitHub Copilot или Gemini, стали частью рабочего процесса. Но использовать их бездумно — значит обесценить собственное обучение и будущие карьерные перспективы. Меня зовут Дмитрий Махортов, я специалист по машинному обучению и ревьюер на курсе «Специалист по Data Science»
Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов
Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :)Доклад «Трансформеры в персональных рекомендациях: от гипотез до AB-тестирования» — Иван Ващенко, DS Team Lead в команде персональных рекомендаций Wildberries & Russ
Всё что нужно знать про torch.sparse
Разработчики PyTorch предоставили модуль torch.sparse для работы с разреженными тензорами, где большинство элементов – нули. Зачем это нужно? Представьте матрицу смежности графа, сильно обрезанную сеть или облако точек – хранить такие данные плотным массивом без надобности расточительно. Разрежённая структура сохраняет только ненулевые элементы и их индексы, что сильно экономит память и ускоряет вычисления. Например, матрица размером 10,000 на 10,000 с 100 000 ненулевых float-значений в разрежённом COO-формате займёт не 400 МБ, а около 2 МБ.Несмотря на перспективы,
Библиотека OutboxML от Страхового Дома ВСК
Хабр, привет! Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей машинного обучения с открытым исходным кодом.
Shap-графики: как наглядно объяснить заказчику логику работы модели
Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ.Наш кластер отвечает за: - выстраивание и внедрение процессов AutoML,
Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор
👋 Привет, Хабр!Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле.

