data science. - страница 3

Взгляд разметчика данных

Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день!

продолжить чтение

Детектор AI-сгенерированных изображений: от идеи до честной оценки качества

Всем привет! Меня зовут Татьяна Кутузова, я работаю в Wildberries & Russ ML-инженером. Вместе с Иваном Горбуновым и Елисеем Мягких мы занимаемся разработкой AI-детектора изображений, который помогает отличать реальные фотографии от сгенерированных нейросетями. В этой статье рассказываем, как мы подошли к созданию AI-детектора: от выбора архитектуры и данных до продуктовых границ и сценариев применения. Отдельное внимание уделяем тому, как в таких задачах корректно оценивать качество модели, какие метрики имеют смысл и почему их интерпретация не менее важна, чем сами числа.

продолжить чтение

ML-аналитика, какие проблемы решает, инструменты, зачем выделять ресурсы

продолжить чтение

Как построить идеальную «песочницу» для ML-моделей

Привет, Хабр! Я Даниил Салман, техлид по контейнеризации. Эта статья написана по мотивам моего доклада для конференции DevOops. Разберёмся, как сделать такую ML-«песочницу», где Data Scientist пишет код, а всё остальное (установка драйверов, выделение ресурсов, деплой и тренировка модели, сбор метрик) уже настроено на бэкенде. Написали максимально просто и доступно, чтобы понять смог даже человек с минимальным погружением в тему. Идеи из этой статьи можно применять в любой инфраструктуре — важно лишь понимать основы: как работает k8s-кластер, Docker и python-фреймворки. Итак, поехали!

продолжить чтение

Стек начинающего дата-сайентиста в 2026: инструменты для роста

Краткий гид: от хаоса к профессиональной разработке моделей машинного обученияПривет! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В свое предыдущей статье

продолжить чтение

Выбираем между DS и AI

Специализации наука о данных (Data Science) и искусственный интеллект (artificial intelligence) похожи, и у начинающих специалистов может возникнуть путаница. В этой статье мы рассмотри сходства и различия этих направлений, используемые инструменты и требования, которые предъявляются к специалистам.

продолжить чтение

Автоэнкодер: как нейросеть учится понимать норму

ВведениеНепосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я пророк».В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных. И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер.В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и

продолжить чтение

Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК

Миронов В.О., Кальченко С.Н.Приветствую вас, бравые хаброжители ;-) В наше время искусственный интеллект очень быстро развивается, при этом, вносит значительные коррективы в развитие различных профессий, диктуя там свои правила и виденье. При этом основные козыри — это скорость, время и профит. В этом контексте мы и будем говорить о сложившейся ситуации, а именно, о дифференцированной трансформации профессий. 

продолжить чтение

Как превратить хаотичный ML-проект в систему: пошаговый гайд по DVC + GitHub Actions

Если ваш эксперимент нельзя воспроизвести командой git checkout && dvc pull, а model_final_v2_new.pth - норма, у вас проблема с ML-инженерией. Дело в воспроизводимости, которую вы теряете уже сегодня. Никакой сложной инфраструктуры (всего два инструмента). Что нужно: DVC для контроля версий данных и моделей +  GitHub Actions для автоматизации. В связке они дадут вам полноценный ML-пайплайн бесплатно и за один вечер :)⠀⠀Почему это важно СЕЙЧАС? (даже для сольного проекта)?Проблема без пайплайна

продолжить чтение

Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A-B-тестирования

Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты работы нашей команды каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.WildBERT основан на классической архитектуре Bidirectional Encoder Representations from Transformers (BERT), улучшенной под задачи и проблемы, с которыми сталкивается маркетплейс. Скорее, это не одна конкретная модель, а концепция, которую мы применяем в разных процессах:

продолжить чтение

123456...10...13
Rambler's Top100