Дифференциальная приватность в ML
Привет, Хабр! Сегодня поговорим в коротком формате о защите данных при обучении моделей, а именно в процессе обучения. Никому не понравится, если ваша нейросеть вдруг выдаст чужие паспортные данные или медицинские записи, правда? А ведь модели машинного обучения иногда склонны запоминать кусочки обучающего набора. Бывали случчаи, где из языковой модели вытаскивали строки с номерами телефонов и email тех людей, чьи данные были в тренировочном датасете. Стоит ли нам вообще кормить модель конфиденциальной информацией
Как выбрать облачный GPU-инстанс для развертывания ИИ-моделей: практическое руководство
Разбираем ключевые критерии, ловушки и лайфхаки для эффективного запуска ML-проектов в облакеВведениеРазвертывание ИИ-моделей в облаке — стандартная задача для современных ML-инженеров. Но выбор подходящего GPU-инстанса часто превращается в «лотерею»: переплата за избыточные ресурсы или, наоборот, «тормоза» из-за недостаточной мощности. В этой статье разберем, как не ошибиться с выбором облачного GPU, сохранив баланс между производительностью и бюджетом. Акцент сделаем на реальных кейсах — от обучения нейросетей до инференса в production.Почему «просто взять самый мощный GPU» — плохая идея?
Руководство Reddit раздумывает о введении верификации через сканирование глазного яблока для защиты платформы от ботов
Reddit намерен строго контролировать публикацию контента на платформе. Как
Компьютерное зрение для начинающих
Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины.Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему.
Когда O(n) мешает отбирать резюме в Росатоме
Главная проблема поиска сотрудников — предвзятость. Порой кажется, что наше резюме подходит под свою роль на 100 %, а рекрутер отклоняет его. Проблема с противоположной стороны баррикад: рекрутер должен отсмотреть по 200, 300 и более резюме в день. По разным данным, на каждое уходит всего лишь 6–10 секунд. А что если можно решить эти две проблемы с помощью ML? Сделать модель, которая исключит любой байес и поможет рекрутеру объективно отбирать подходящих кандидатов (где «подходящесть» обусловлена красивой математикой!). Мы это сделали. Оказалось, что если вы хотите добиться непредвзятости, то вам придётся внести в систему предвзятость. Оксюморон в статистике! Что мы увидели: Женатые и замужние — в топе: пока вы не уходите глубоко в анализ, этот быстрый фактор повышает ранг. Чем точнее ваша модель, тем меньше его вес. Английский — плохо: знание английского почему-то работало как антипаттерн, снижая релевантность. ОГУРЕЦ: кто-то зачем-то написал это слово в резюме. Оно попало в словарь модели и получило большой вес. Иксель — люди пишут Excel как угодно, и само слово в правильном написании оказалось снижающим оценку. К резюме может быть приложено много мусора. Самый эпичный пример: авиабилет Москва — Челябинск вместо резюме. Но давайте начну с начала.
В Москве идет Datafest 2025
Примерно через каждый день проходит то или иное событие в Москве в даты с 25 мая по 2 июня 2025 года. Видимо, мероприятия от организаторов Data Fusion не одноразовое, и что-то подобное планируется проводить ежегодно, поэтому интересно посмотреть программу данного фестиваля.Datafest в Москве
Исследователи из Оксфорда предложили принципиально новый способ обучения нейросетей
Абсолютно все нейросети, которые нас окружают, обучены с помощью одного и того же алгоритма – алгоритма обратного распространения ошибки (англ. back-propagation). Его изобрели еще в 80-х годах прошлого века ученые Дэвид Румельхарт, Джеффри Хинтон (ныне нобелевский лауреат) и Рональд Уильямс. Идея back-propagation в том, что мы сначала «прогоняем» входные данные вперёд по сети (forward pass), получаем предсказания и вычисляем их ошибку, а затем прогоняем сигнал ошибки назад по сети (backward pass), чтобы вычислить градиенты и обновить веса. Это работает хорошо и надежно, но есть нюансы
Обратное распространение ошибки… на пальцах… без формул
Все эти игры не для нас....Хотелось быпоказать «суть» метода обратного распространения ошибки (Backpropagation) в нейросетях. Ведь ее сложно увидеть за нагромождением формул. Статья, конечно, не для профессионалов индустрии и математиков... Но знать производные нужно.

