разметка данных. - страница 2

Вот так подкрути геймификацию и мотивация болеть не будет

В учебнике обществознания за 9 класс есть определение экономики как науки: «Экономика — наука о том, как люди удовлетворяют свои постоянно растущие потребности в условиях ограниченности ресурсов». Точно так и в разметке — нам нужно удовлетворить свои постоянно растущие потребности в объёмах и качестве разметки, а бюджет ограничен. Помочь нам в этом может система мотивации.

продолжить чтение

200 000+ снимков мусора: что мы узнали о датасетах

В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.

продолжить чтение

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно... Здесь было все: почти сорванный дедлайн, паника, отчаяние и, как вишенка на торте, нейросеть, которую мы создали, чтобы обучить другую нейросеть.Кони-авторитеты и спокойствие стада

продолжить чтение

Как мы сделали полезным крупнейший русскоязычный датасет запросов к LLM

Привет! Меня зовут Роман Куцев, я основатель LLM Arena. У нас каждый день сотни людей общаются с языковыми моделями, тестируют, сравнивают, задают вопросы. В какой-то момент стало ясно: в этих логах — не просто сессии пользователей. Это — живая картина того, как люди используют LLM в реальности.Так родилась идея: собрать открытый, структурированный датасет промптов и дать AI-комьюнити инструмент, с которым можно не просто смотреть, но и исследовать, фильтровать, понимать логику запросов юзеров к LLM. 

продолжить чтение

Benchmark — разрушитель LLM’ок, или Как мы собрали свой мультиязычный SWE-Bench

В статье представлено многоязычное расширение SWE-Bench от команды Doubletapp — бенчмарка для оценки больших языковых моделей (LLM) на реальных задачах программной инженерии, на различных языках программирования и кодовых базах индустрии. О процессе сбора SWE-Bench мы уже рассказывали в отдельной статье

продолжить чтение

Разметка данных с использованием LLM

Всем привет! Меня зовут Артем Ерохин. Я работаю в X5 Tech в направлении продуктивизации ИИ. В прошлом году у меня был доклад про разметку данных с LLM. И я решил преобразовать этот доклад в статью, попутно обновив некоторые цифры и тезисы (такова уж скорость прогресса в этой области). Но для начала позволю себе несколько вводных для тех, кто всё же не слышал про разметку данных и LLM (Large Language Models или большие языковые модели). Что же такое LLM?Итак, LLM – это:Модель.

продолжить чтение

База об организации процесса разметки: команда, онбординг, метрики

Привет! Меня зовут Сизов Виктор, я занимаюсь данными, их сбором, анализом и разметкой последние 5 лет. Сейчас отвечаю за разметку в Альфа-Банке. Эту статьи мы писали всей командой и старались осветить подробно детали того, как устроены процессы разметки с технической и административной стороны. В статье мы рассмотрели:работу команд разметки, их взаимодействие с Заказчиком и Продуктом;отдельно разобрали аналитику, которая позволяет повышать качество разметки;поведение людей (разметчиков), паттерны их работы.Часть 1. Заказчики, участники и исполнители

продолжить чтение

Расставим точки над i: как подготовить разметку для задач Keypoint Detection

продолжить чтение

Как собирать данные: руководство для ИИ-стартапов

В 2016 году я наткнулся на руководство по стратегиям сбора данных для AI-стартапов, многие идеи из которого были визионерскими для своего времени. Автором этого текста был Мориц Мюллер-Фрайтаг, сооснователь компании Twenty Billion Neurons (TwentyBN).

продолжить чтение

Экосистема для разработки и применения Computer Vision (CV) в промышленности

Статья написана 2мя авторами: Иваном Мигалем и Юрием Кацером.На сегодняшний день компьютерное зрение (CV — computer vision) активно применяется в промышленности и уже стало привычной технологией для многих производств. Наиболее частыми примерами являются кейсы с охраной труда и промышленной безопасностью (ОТиПБ). Другими популярными кейсами, больше связанными с самим технологическим процессом, являются:ГранулометрияАнализ характеристик пены и динамики пеносъема на флотации

продолжить чтение

Rambler's Top100