Garbage In — Garbage Out: ошибки в разметке данных и как они ломают ML-системы
На Хабре тысячи статей про OCR, IDP, ML и искусственный интеллект. Все они сходятся в одном: «качественная разметка данных — ключ к точности модели». Но что это значит на практике?Меня зовут Снежана Игнатенко, я руковожу отделом разметки данных в SL Soft AI
Сравнение инструментов разметки данных для CV: Label Studio & CVAT & Roboflow — опыт разметки 6000+ изображений
Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали:как быстро аннотатор может разметить тысячу изображений;удобно ли контролировать качество и правки;можно ли подключить модель для предразметки;как работает экспорт и интеграция с ML-пайплайном;где будут храниться данные - на сервере компании или в облаке;
ИИ-стартап уволил тысячи подрядчиков и нанял назад на четверть дешевле
Стартап Mercor, помогающий некоторым крупнейшим технологическим компаниям обучать модели искусственного интеллекта, на этой неделе уволил подрядчиков. Затем их наняли в новый проект, но уже за меньшие деньги.
«Манускрипт. Распознать нельзя забыть: как мы научили нейросеть читать рукописи XIX века»
Проект реализуется командой: Константин Кожин — руководитель проекта; Павел Шерстнев — ML-инженер; Антон Михалев — ML-инженер; Анна Пятаева — научный руководитель проекта; Владислава Жуковская — специалист по разметке данных; Алина Нуриманова — специалист по разметке данных. Работа ведётся при поддержке гранта (Фонд содействия инновациям, конкурс «Код-ИИ», VII очередь, декабрь 2024 – декабрь 2025).Manuscript OCR — это open-source проект, опубликованный на GitHub и GitVerse.
Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps
Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных
xAI назначила 20-летнего студента главой команды аннотации данных
Стартап Илона Маска xAI назначил 20-летнего студента Диего Пачини руководителем команды аннотации данных, которая отвечает за обучение искусственного интеллекта Grok.
Как данные влияют на качество ML-фичи. Виртуальный фон для Контур.Толк
Привет, Хабр! Меня зовут Павел Кузнецов, и я ML-разработчик в лаборатории компьютерного зрения Центра ИИ Контура. Мы занимаемся созданием AI-фич для продуктов компании. Один из наших ключевых заказчиков — сервис видео-конференц-связи Контур.Толк. Для него мы разрабатываем такие фичи, как бьютификация, улучшение освещённости, детекция дипфейков и, конечно же, сегментация фона.
xAI уволит 500 сотрудников из команды по аннотации данных
Стартап Илона Маска xAI увольняет 500 сотрудников команды по аннотации данных. Таким образом, сокращения затронут примерно треть работников этого отдела.

