Взгляд разметчика данных
Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день!
Детектор AI-сгенерированных изображений: от идеи до честной оценки качества
Всем привет! Меня зовут Татьяна Кутузова, я работаю в Wildberries & Russ ML-инженером. Вместе с Иваном Горбуновым и Елисеем Мягких мы занимаемся разработкой AI-детектора изображений, который помогает отличать реальные фотографии от сгенерированных нейросетями. В этой статье рассказываем, как мы подошли к созданию AI-детектора: от выбора архитектуры и данных до продуктовых границ и сценариев применения. Отдельное внимание уделяем тому, как в таких задачах корректно оценивать качество модели, какие метрики имеют смысл и почему их интерпретация не менее важна, чем сами числа.
Как построить идеальную «песочницу» для ML-моделей
Привет, Хабр! Я Даниил Салман, техлид по контейнеризации. Эта статья написана по мотивам моего доклада для конференции DevOops. Разберёмся, как сделать такую ML-«песочницу», где Data Scientist пишет код, а всё остальное (установка драйверов, выделение ресурсов, деплой и тренировка модели, сбор метрик) уже настроено на бэкенде. Написали максимально просто и доступно, чтобы понять смог даже человек с минимальным погружением в тему. Идеи из этой статьи можно применять в любой инфраструктуре — важно лишь понимать основы: как работает k8s-кластер, Docker и python-фреймворки. Итак, поехали!
Стек начинающего дата-сайентиста в 2026: инструменты для роста
Краткий гид: от хаоса к профессиональной разработке моделей машинного обученияПривет! Я Максим Катрушенко, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. В свое предыдущей статье
Выбираем между DS и AI
Специализации наука о данных (Data Science) и искусственный интеллект (artificial intelligence) похожи, и у начинающих специалистов может возникнуть путаница. В этой статье мы рассмотри сходства и различия этих направлений, используемые инструменты и требования, которые предъявляются к специалистам.
Автоэнкодер: как нейросеть учится понимать норму
ВведениеНепосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я пророк».В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных. И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер.В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и
Цифровые культиваторы, теплицы и мотоблоки или мультиагентная трансформация АПК
Миронов В.О., Кальченко С.Н.Приветствую вас, бравые хаброжители ;-) В наше время искусственный интеллект очень быстро развивается, при этом, вносит значительные коррективы в развитие различных профессий, диктуя там свои правила и виденье. При этом основные козыри — это скорость, время и профит. В этом контексте мы и будем говорить о сложившейся ситуации, а именно, о дифференцированной трансформации профессий.
Как превратить хаотичный ML-проект в систему: пошаговый гайд по DVC + GitHub Actions
Если ваш эксперимент нельзя воспроизвести командой git checkout && dvc pull, а model_final_v2_new.pth - норма, у вас проблема с ML-инженерией. Дело в воспроизводимости, которую вы теряете уже сегодня. Никакой сложной инфраструктуры (всего два инструмента). Что нужно: DVC для контроля версий данных и моделей + GitHub Actions для автоматизации. В связке они дадут вам полноценный ML-пайплайн бесплатно и за один вечер :)⠀⠀Почему это важно СЕЙЧАС? (даже для сольного проекта)?Проблема без пайплайна
Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A-B-тестирования
Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты работы нашей команды каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.WildBERT основан на классической архитектуре Bidirectional Encoder Representations from Transformers (BERT), улучшенной под задачи и проблемы, с которыми сталкивается маркетплейс. Скорее, это не одна конкретная модель, а концепция, которую мы применяем в разных процессах:

