computer vision. - страница 5

Новая генеративная модель Kandinsky 3D для создания 3D-объектов. Как она работает и кому будет полезна

Салют, Хабр! В прошлом году мы рассказали

продолжить чтение

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

продолжить чтение

Всё про инференс на Sophon NPU (TPU)

Easter Egg is incomingВ этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. 

продолжить чтение

Vision Transformer-применение трансформеров в задачах компьютерного зрения

Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!Данная работа полезна, если для вас "внимание-это все, что вам нужно" и вас интересует, как стали использовать трансформеры в других областях глубокого обучения.ВведениеСверточные нейронные сети (CNN) долгое время были основой компьютерного зрения, эффективно справляясь с задачами классификации и детекции объектов. Однако у них есть свои ограничения:Локальность обработки

продолжить чтение

Mask R-CNN 3D

1. Описание модели Mask R-CNN 3DMask R-CNN 3D – это расширение знаменитой модели Mask R-CNN для работы с трехмерными данными (объёмными изображениями или облаками точек). Классическая Mask R-CNN предназначена для instance segmentation (сегментации отдельных объектов) на 2D-изображениях и состоит из двух основных частей: (1) сети предложений областей (Region Proposal Network, RPN) и (2) головы (Head) с несколькими выходными ветвями для классификации, регрессии ограничивающих рамок и сегментации масок . В версии 3D эта же концепция перенесена в трехмерное пространство.

продолжить чтение

Мир будущего: управление устройствами с помощью жестов

Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.

продолжить чтение

Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей

Сразу к карте? Если вы предпочитаете действовать, а не читать, вот ссылка на Mind Map . Она доступна для изучения прямо сейчас. А если хотите понять контекст и узнать больше о каждой модели — добро пожаловать под кат! Введение

продолжить чтение

Virtual Ads или как прорекламировать Adidas в CS:GO

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising. В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.Форматы рекламы в спортивных трансляциях

продолжить чтение

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Жесты, представленные в датасете HaGRIDv2-1M. Новые жесты, добавленные к жестам из HaGRID, выделены краснымВ этой статье мы представляем HaGRIDv2-1M — обновлённую и значительно расширенную версию HaGRID, самого полного

продолжить чтение

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной.

продолжить чтение

Rambler's Top100