cv.

cv.

Визуально-языковые модели: следующий шаг эволюции LLM

Ранее мы разбирали методы самосупервизируемого обучения в компьютерном зрении, которые преобразуют изображения и видео в информативные векторные представления (эмбеддинги). Несмотря на их мощь, такие представления обычно требуют дообучения последующих моделей под конкретные задачи. В отличие от этого, большие языковые модели (LLM) блестяще справляются с zero-shot- и few-shot-задачами без какого-либо дообучения. Мы хотим добиться таких же возможностей для визуальных данных.

продолжить чтение

Сравнение инструментов разметки данных для CV: Label Studio & CVAT & Roboflow — опыт разметки 6000+ изображений

Если вы хоть раз обучали модель компьютерного зрения, вы знаете, как качество данных решает всё. На первый взгляд кажется, что задачи у всех инструментов одинаковые: поставить рамку, провести полигон, экспортировать данные, но в реальности всё упирается в детали:как быстро аннотатор может разметить тысячу изображений;удобно ли контролировать качество и правки;можно ли подключить модель для предразметки;как работает экспорт и интеграция с ML-пайплайном;где будут храниться данные - на сервере компании или в облаке;

продолжить чтение

Клетки, яйца и видеоаналитика. Как устроена современная птицефабрика?

Вы когда-нибудь задумывались, как выглядит современная птицефабрика? Та самая, что поставляет яйца в наши магазины и на наши столы. Если у вас в голове всплывают картинки а-ля курочки мирно клюют зернышки на огороженной лужайке, то у меня для вас две новости. Первая - прогресс шагнул далеко вперед.Вторая - современные агротехнологии могут показаться жестокими. Но именно благодаря им мы можем купить яйца в ближайшей “Пятерочке” и не выложить за них ползарплаты. Итак, приступим.

продолжить чтение

Как научить робота выходить из лабиринта домино только «глазами»: Jetson Nano + Arduino

ВведениеВ этой статье я расскажу, как простая тележка на базе NVIDIA Jetson Nano и Arduino Nano

продолжить чтение

«Большие вызовы»: как школьники за 3 недели собрали модуль для офлайн-распознавания документов на Android

продолжить чтение

ИИ в 3 фазы… снижение рисков, экономия времени и помощь человеку. Но …— нужно дать пользу уже на первом шаге

«В крупных компаниях ИИ не продается как технология. Он продается как снижение рисков, экономия времени и помощь человеку. Но чтобы его купили — нужно дать пользу уже на первом шаге. Вот как мы сделали это без бюджета, без команды и с одними только идеями»1. Введение: Не про ИИ. Про то, как заставить бизнес поверить в измененияПривет, Хабр!Меня зовут Алексей. Я руковожу направлением искусственного интеллекта в федеральном холдинге. Моя задача — не «внедрить нейросеть», а сделать так, чтобы люди перестали бояться изменений.Раньше сотрудникам требовалось 40–60 минут, чтобы создать документ выбраковки:

продолжить чтение

Литературный обзор на статью: StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

StyleGAN-NADA (No Annotation Domain Adaptation) - метод, разработанный специалистами из Tel Aviv University и NVIDIA Research, позволяющий адаптировать генеративную модель (StyleGAN2) к новому домену без единого изображения, использующий только семантическую силу больших моделей, предварительно обученных контрастивным методом на тексте и изображениях (СLIP). На рисунке 1 представлены возможности метода StyleGAN-NADA.

продолжить чтение

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Мы — Даврон Ихматуллаев и Михаил Назаров — выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ. В рамках дипломной работы и студенческого стартап-проекта мы разработали KidFolio — цифровую платформу, которая автоматически отправляет родителям персонализированные фото- и видеоотчеты из детского сада, используя технологии компьютерного зрения (CV) и мультимодальных языковых моделей (VLM).В этой статье расскажем, как мы делали из идеи продукт:от гипотезы и интервью с воспитателями до запуска MVP в виде телеграм-бота;как дообучали модели распознавания лиц под детский домен;

продолжить чтение

Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии

продолжить чтение

PTTJS — формат текстового хранения комплексных таблиц

PTTJS - plain text table javascript, формат разработанный из личной необходимости и острой нужды.Публикую в народ, потому что уверен, что не меня одного волнуют ограничения и проблемы текущих форматов для табличных данных.Уже написаны

продолжить чтение

12
Rambler's Top100