computer vision. - страница 5

Нейросети наконец-то «прозрели»? DeepMind переписали логику машинного зрения: разбор Nature

Помните старый мем, где нейросеть не могла отличить чихуахуа от маффина с изюмом? Мы смеялись, но для разработчиков мультимодальных агентов это была настоящая головная боль.До сегодняшнего дня все наши SOTA-модели (Vision Transformers, CLIP и прочие) страдали одной болезнью: текстурным смещением (texture bias). Они «смотрели» на мир не как мы (через форму и суть объекта), а как инопланетяне — через пятна цвета и фактуру. Покажите модели кошку, обтянутую текстурой слоновьей кожи, и для неё это будет слон. Точка.Но Google DeepMind, похоже, нашли лекарство. На днях в Nature

продолжить чтение

Сила оттенков серого: компьютерное зрение с нуля

В обсуждениях компьютерного зрения обычно речь идёт об OpenCV или нейронных сетях глубокого обучения наподобие YOLO

продолжить чтение

Распознаём позу человека во Flutter Web с MediaPipe

Давайте распознаем позу по видео с вебкамеры вот так:Финальное приложение, которое мы сделаем в этой статье.Для этого есть библиотека MediaPipe

продолжить чтение

Что я вынес из Oxford Machine Learning Summer School 2025

Mathematical Institute, University of OxfordВдохновлено обзором про похожую школу — EEML.

продолжить чтение

Компьютерное зрение + ARKit = AR-навигация внутри зданий

Навигация внутри зданий — задача куда более сложная, чем на улице. GPS либо полностью не работает, либо даёт большую погрешность. Карта и инфостойки помогают, но не решают проблему полностью — они статичны, поэтому не всегда понятно, где посетитель находится прямо сейчас (вплоть до этажа) и в какую сторону он смотрит.Мы решили сделать навигацию проще и нагляднее — с помощью AR прямо через камеру смартфона. Сейчас технология доступна в столичных торговых центрах «Авиапарк», «Афимолл», «Европейский» и в «Галерее» в Петербурге.

продолжить чтение

Как посчитать, сколько людей в лаборатории

Почти всё время существования лаборатории студенческих проектов Висконсинского университета в ней использовалась камера. Есть свидетельства наличия такой системы ещё в 1990-х: на

продолжить чтение

Что было самого интересного про компьютерное зрение на Я Железо 2025

Что с точки зрения CV-инженера, в основном обучающего модели компьютерного зрения, было интересно на конференции Я Железо 2025?Закаливание детектора автомобиля радарными точкамиссылкаМетрики. С - камера, L - лидар, R - радар

продолжить чтение

Как мы научили нейросеть читать технические схемы и сразу считать их стоимость

Танцы с YOLO, OCR и пятнами от кофеКогда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи.

продолжить чтение

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.ВведениеСовременные object detection-модели достаточно мощные, чтобы «из коробки» выдавать приемлемую точность. Особенно если задача выглядит простой — например, определить, где на покерном столе лежат карты.Но «приемлемо» и «надёжно» — не одно и то же.В одном из проектов заказчик обучил модель, которая показывала 93% точности на валидной выборке, но на практике её приходилось постоянно подчищать вручную. Модель теряла карты в нужных моментах, срабатывала на графику трансляции и мешала, а не помогала аналитике.

продолжить чтение

Универсальные модели в видеоаналитике: единый фундамент для множества задач

Привет! С вами Кирилл Тузов, Data Scientist в команде видеоаналитики бэк-офиса Wildberries & Russ.Камеры видят всё. Вопрос в том, распознают ли наши алгоритмы, что именно они видят, — и насколько быстро, надёжно и без тонны ручной работы это происходит. В этой статье я расскажу, как мы используем Self-Supervised, Zero-Shot и мультимодальные модели, чтобы приблизиться к максимально возможной эффективности.Зачем нужна видеоаналитика?Видеоаналитикой называют любые подходы и алгоритмы, которые позволяют в автоматическом режиме отслеживать видеопоток и находить интересующие события или объекты.

продолжить чтение

1...345678...9