Взгляд разметчика данных
Дисклеймер: ниже будет описан личный опыт и точка зрения человека-исполнителя. Устройство всей процедуры разметки в статье не раскрывается. Все совпадения сущностей случайны. Названия компаний не упоминаются в целях соблюдения NDA. В статье не будут подниматься вопросы оплаты труда и разбираются только основные рабочие моменты. Всем добрый день!
Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы
На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике?Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI
Сравнение инструментов разметки данных для CV: Label Studio & CVAT & Roboflow — опыт разметки 6000+ изображений
Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали:как быстро аннотатор может разметить тысячу изображений;удобно ли контролировать качество и правки;можно ли подключить модель для предразметки;как работает экспорт и интеграция с ML-пайплайном;где будут храниться данные - на сервере компании или в облаке;
ИИ-стартап уволил тысячи подрядчиков и нанял назад на четверть дешевле
Стартап Mercor, помогающий некоторым крупнейшим технологическим компаниям обучать модели искусственного интеллекта, на этой неделе уволил подрядчиков. Затем их наняли в новый проект, но уже за меньшие деньги.
«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»
Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.
Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps
Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных
xAI назначила 20-летнего студента главой команды аннотации данных
Стартап Илона Маска xAI назначил 20-летнего студента Диего Пачини руководителем команды аннотации данных, которая отвечает за обучение искусственного интеллекта Grok.
Как данные влияют на качество ML-фичи. Виртуальный фон для Контур.Толк
Привет, Хабр! Меня зовут Павел Кузнецов, и я ML-разработчик в лаборатории компьютерного зрения Центра ИИ Контура. Мы занимаемся созданием AI-фич для продуктов компании. Один из наших ключевых заказчиков — сервис видео-конференц-связи Контур.Толк. Для него мы разрабатываем такие фичи, как бьютификация, улучшение освещённости, детекция дипфейков и, конечно же, сегментация фона.

