data science. - страница 3

Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели

Знание классики - база любых собеседований на все грейды в DS!Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.Это вторая часть вопросов по classic ML, если вы не видели первую, то обязательно читайте (там разобрал основы мл, линейные модели, метрики классификации и регресии).А в этой части разберем:деревьяансамблиметрические моделикластеризацию

продолжить чтение

Бесконечность в ваших данных – power laws

Сегодня я хочу рассказать о теме, которая редко затрагивается в курсах по статистике, но порой встречается на практике. Она может сломать основания всех ваших привычных методов и даже ваш мозг. Имя этой теме – power laws или “степенные законы”. В этой статье я расскажу, что это такое, покажу примеры реальных данных и расскажу, что делать, если в ваших данных встретился степенной закон. Я постарался сделать текст читаемым для широкого круга людей и не нагружать его формулами.

продолжить чтение

Автоматизированное машинное обучение с помощью нашего Open Source фреймворка: задача о Титанике

Привет! Меня зовут Владимир Суворов, я Senior Data Scientist в Страховом Доме ВСК и core-разработчик нашей библиотеки машинного обучения OutBoxML.

продолжить чтение

ИИ в 3 фазы… снижение рисков, экономия времени и помощь человеку. Но …— нужно дать пользу уже на первом шаге

«В крупных компаниях ИИ не продается как технология. Он продается как снижение рисков, экономия времени и помощь человеку. Но чтобы его купили — нужно дать пользу уже на первом шаге. Вот как мы сделали это без бюджета, без команды и с одними только идеями»1. Введение: Не про ИИ. Про то, как заставить бизнес поверить в измененияПривет, Хабр!Меня зовут Алексей. Я руковожу направлением искусственного интеллекта в федеральном холдинге. Моя задача — не «внедрить нейросеть», а сделать так, чтобы люди перестали бояться изменений.Раньше сотрудникам требовалось 40–60 минут, чтобы создать документ выбраковки:

продолжить чтение

AI-ассистент в мире кода: как стать пилотом, а не пассажиром

Сегодня невозможно игнорировать тот факт, что AI-ассистенты, такие как ChatGPT, GitHub Copilot или Gemini, стали частью рабочего процесса. Но использовать их бездумно — значит обесценить собственное обучение и будущие карьерные перспективы. Меня зовут Дмитрий Махортов, я специалист по машинному обучению и ревьюер на курсе «Специалист по Data Science»

продолжить чтение

Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов

Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :)Доклад «Трансформеры в персональных рекомендациях: от гипотез до AB-тестирования» — Иван Ващенко, DS Team Lead в команде персональных рекомендаций Wildberries & Russ

продолжить чтение

Всё что нужно знать про torch.sparse

Разработчики PyTorch предоставили модуль torch.sparse для работы с разреженными тензорами, где большинство элементов – нули. Зачем это нужно? Представьте матрицу смежности графа, сильно обрезанную сеть или облако точек – хранить такие данные плотным массивом без надобности расточительно. Разрежённая структура сохраняет только ненулевые элементы и их индексы, что сильно экономит память и ускоряет вычисления. Например, матрица размером 10,000 на 10,000 с 100 000 ненулевых float-значений в разрежённом COO-формате займёт не 400 МБ, а около 2 МБ.Несмотря на перспективы,

продолжить чтение

Библиотека OutboxML от Страхового Дома ВСК

Хабр, привет! Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей машинного обучения с открытым исходным кодом.

продолжить чтение

Shap-графики: как наглядно объяснить заказчику логику работы модели

Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ.Наш кластер отвечает за: - выстраивание и внедрение процессов AutoML,

продолжить чтение

Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор

👋 Привет, Хабр!Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле.

продолжить чтение

123456...10...11
Rambler's Top100