обучение нейросетей.

Апофатический ИИ: Почему нейросети учатся через «НЕТ», и как синтетические данные убивают смысл

Современное обучение нейросетей часто напоминает алхимию. У нас есть работающие рецепты, но как именно статистическая модель превращает терабайты текста в понимание до сих пор непонятно.Почему возможно сублиминальное обучение (передача паттернов через шум)? Почему обучение на синтетических данных приводит к деградации, даже если данные кажутся качественными? 

продолжить чтение

Видеть и лес, и деревья. Новая модель мозга, созданная на основе искусственного интеллекта, раскрывает природу обучения

Когда речь идет про моделирование работы мозга, то возникает проблема «не видеть лес за деревьями». Модель каждого, взятого по отдельности нейрона, может работать достаточно хорошо. Можно даже связать их в достаточно стабильную нейронную цепь. Но дальнейшее моделирование «поведения, близкого к реальному», становится вызовом. До сегодняшнего дня.

продолжить чтение

Дифференциальная приватность в ML

Привет, Хабр! Сегодня поговорим в коротком формате о защите данных при обучении моделей, а именно в процессе обучения. Никому не понравится, если ваша нейросеть вдруг выдаст чужие паспортные данные или медицинские записи, правда? А ведь модели машинного обучения иногда склонны запоминать кусочки обучающего набора. Бывали случчаи, где из языковой модели вытаскивали строки с номерами телефонов и email тех людей, чьи данные были в тренировочном датасете. Стоит ли нам вообще кормить модель конфиденциальной информацией

продолжить чтение

Данные против модели: почему больше — не всегда значит лучше в задаче Face Antispoofing

продолжить чтение

Как выбрать облачный GPU-инстанс для развертывания ИИ-моделей: практическое руководство

Разбираем ключевые критерии, ловушки и лайфхаки для эффективного запуска ML-проектов в облакеВведениеРазвертывание ИИ-моделей в облаке — стандартная задача для современных ML-инженеров. Но выбор подходящего GPU-инстанса часто превращается в «лотерею»: переплата за избыточные ресурсы или, наоборот, «тормоза» из-за недостаточной мощности. В этой статье разберем, как не ошибиться с выбором облачного GPU, сохранив баланс между производительностью и бюджетом. Акцент сделаем на реальных кейсах — от обучения нейросетей до инференса в production.Почему «просто взять самый мощный GPU» — плохая идея?

продолжить чтение

WeTransfer убрала из условий обслуживания пункт об использовании клиентских файлов для обучения моделей ИИ

продолжить чтение

Руководство Reddit раздумывает о введении верификации через сканирование глазного яблока для защиты платформы от ботов

Reddit намерен строго контролировать публикацию контента на платформе. Как

продолжить чтение

Компьютерное зрение для начинающих

Тема компьютерного зрения наряду с искусственным интеллектом в последние годы стала очень популярной. Сегодня компьютерное зрение — это динамичная и быстро развивающаяся область, постоянно расширяющая границы того, что могут видеть и понимать машины.Однако, зачастую многие публикации посвященные computer vision являются достаточно сложными для тех, кто только погружается в данную тему.

продолжить чтение

Когда O(n) мешает отбирать резюме в Росатоме

Главная проблема поиска сотрудников — предвзятость. Порой кажется, что наше резюме подходит под свою роль на 100 %, а рекрутер отклоняет его. Проблема с противоположной стороны баррикад: рекрутер должен отсмотреть по 200, 300 и более резюме в день. По разным данным, на каждое уходит всего лишь 6–10 секунд. А что если можно решить эти две проблемы с помощью ML? Сделать модель, которая исключит любой байес и поможет рекрутеру объективно отбирать подходящих кандидатов (где «подходящесть» обусловлена красивой математикой!). Мы это сделали. Оказалось, что если вы хотите добиться непредвзятости, то вам придётся внести в систему предвзятость. Оксюморон в статистике! Что мы увидели: Женатые и замужние — в топе: пока вы не уходите глубоко в анализ, этот быстрый фактор повышает ранг. Чем точнее ваша модель, тем меньше его вес. Английский — плохо: знание английского почему-то работало как антипаттерн, снижая релевантность. ОГУРЕЦ: кто-то зачем-то написал это слово в резюме. Оно попало в словарь модели и получило большой вес. Иксель — люди пишут Excel как угодно, и само слово в правильном написании оказалось снижающим оценку. К резюме может быть приложено много мусора. Самый эпичный пример: авиабилет Москва — Челябинск вместо резюме. Но давайте начну с начала.

продолжить чтение

В Москве идет Datafest 2025

Примерно через каждый день проходит то или иное событие в Москве в даты с 25 мая по 2 июня 2025 года. Видимо, мероприятия от организаторов Data Fusion не одноразовое, и что-то подобное планируется проводить ежегодно, поэтому интересно посмотреть программу данного фестиваля.Datafest в Москве

продолжить чтение

12
Rambler's Top100