разметка.

Как собрать датасет фотографий с помощью LLM: опыт вайб-фильтров

Когда к тебе приходит продакт-менеджер и говорит: «Мне нужны фотографии с романтическим вайбом!», ты, конечно, киваешь. Но в голове с этого момента — не просто набор условий, а попытка нащупать настроение. То, которое не описывается одним словом. Это может быть приглушённый свет в номере, может — зажжённые свечи на столе, а может — парень с девушкой, обнявшиеся на фоне заката.Что такое «

продолжить чтение

Что такое шопсы? И как мы размечаем shoppable-контент

продолжить чтение

И в дождь, и в снег: как мы детектируем загрязнения на лидарах автономного транспорта

продолжить чтение

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных

продолжить чтение

GigaChat + RAG: как гига нам инструкции для разметки пишет в 3 раза быстрее

Почти за всем хорошим ML стоят хорошие данные. И так получилось, что таких данных часто нет и их приходится добывать, а даже добыв, из них нужно сделать что-то подходящее, и (если сильно огрубить) такой процесс называется разметкой.Пример задачи по сегментации видео-кадров и пример инструкции к ней

продолжить чтение

Rambler's Top100