наука о данных.

Как прошла международная конференция ISKE 2025 в области AI и ML

Всем привет! С вами снова на связи Кирилл, и я только вернулся из своей недельной поездки в Китай на конференцию International Conference on Intelligent Systems and Knowledge Engineering (ISKE 2025

продолжить чтение

Бесконечность в ваших данных – power laws

Сегодня я хочу рассказать о теме, которая редко затрагивается в курсах по статистике, но порой встречается на практике. Она может сломать основания всех ваших привычных методов и даже ваш мозг. Имя этой теме – power laws или “степенные законы”. В этой статье я расскажу, что это такое, покажу примеры реальных данных и расскажу, что делать, если в ваших данных встретился степенной закон. Я постарался сделать текст читаемым для широкого круга людей и не нагружать его формулами.

продолжить чтение

Фабрика данных 2030: от GAN-конвейеров до каузальных сетей — кто отвечает за рождение синтетической реальности

1. Вступление: синтетика выходит из-подпольяДесять лет назад мы говорили о «данных–нефть». В 2025-м метафора смещается: нефть закончилась, а нужен устойчивый источник энергии. Синтетические наборы — эта самая «зелёная электростанция» для AI-экономики.Почему это не очередная хайповая игрушка?Дефицит реальных выборок. Регуляторы закрутили гайки (GDPR, HIPAA, китайский PIPL). В финтехе и медицине доступных датасетов меньше, чем стартапов, желающих их тренировать.Приватность без компромиссов.

продолжить чтение

Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии

Секрет успешного трудоустройства — в дотошной подготовке к собеседованиям!Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.В этой части разберем:основы машинного обучения,переобучение и кросс-валидация,линейные модели,метрики классификации и регрессии.Параллельно доступно видеоинтервью с разбором тех же вопросов

продолжить чтение

Precision и recall для каждого от кофаундера Технолиума

Всех приветствую! Далее я объясню и покажу как можно подбирать порог на практике и что это вообще такое на пальцах. Но для начала немного теории. Внимание! если вы не знаете что такое метрика или оценка модели или бинарный классификатор, для начала почитайте об этом!Матрица ошибок (confusion matrix)Для лучшего понимания предлагаю ввести понятие матрицы ошибок для оценки качества классификатора:Реальные таргетыПредсказания модельюPositive

продолжить чтение

Игра в имитацию: используем Python для генерации синтетических данных для ML и не только

ВведениеРучной сбор данных — это всегда боль. Он съедает время, деньги и нервы, особенно в таких областях, как медицина или финансы, где затраты могут быть космическими, а юридические барьеры — непреодолимыми. По

продолжить чтение

Rambler's Top100