Компьютерное зрение + ARKit = AR-навигация внутри зданий
Навигация внутри зданий — задача куда более сложная, чем на улице. GPS либо полностью не работает, либо даёт большую погрешность. Карта и инфостойки помогают, но не решают проблему полностью — они статичны, поэтому не всегда понятно, где посетитель находится прямо сейчас (вплоть до этажа) и в какую сторону он смотрит.Мы решили сделать навигацию проще и нагляднее — с помощью AR прямо через камеру смартфона. Сейчас технология доступна в столичных торговых центрах «Авиапарк», «Афимолл», «Европейский» и в «Галерее» в Петербурге.
Как посчитать, сколько людей в лаборатории
Почти всё время существования лаборатории студенческих проектов Висконсинского университета в ней использовалась камера. Есть свидетельства наличия такой системы ещё в 1990-х: на
Что было самого интересного про компьютерное зрение на Я Железо 2025
Что с точки зрения CV-инженера, в основном обучающего модели компьютерного зрения, было интересно на конференции Я Железо 2025?Закаливание детектора автомобиля радарными точкамиссылкаМетрики. С - камера, L - лидар, R - радар
Как мы научили нейросеть читать технические схемы и сразу считать их стоимость
Танцы с YOLO, OCR и пятнами от кофеКогда думаешь о «цифровой трансформации» в промышленности, в голове обычно всплывают роботы, датчики, большие экраны и дроны, которые сами разносят детали по цеху. В реальности всё часто упирается в куда более прозаичные вещи.
Когда YOLO не спасает: как один параметр может испортить всё
История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.ВведениеСовременные object detection-модели достаточно мощные, чтобы «из коробки» выдавать приемлемую точность. Особенно если задача выглядит простой — например, определить, где на покерном столе лежат карты.Но «приемлемо» и «надёжно» — не одно и то же.В одном из проектов заказчик обучил модель, которая показывала 93% точности на валидной выборке, но на практике её приходилось постоянно подчищать вручную. Модель теряла карты в нужных моментах, срабатывала на графику трансляции и мешала, а не помогала аналитике.
Универсальные модели в видеоаналитике: единый фундамент для множества задач
Привет! С вами Кирилл Тузов, Data Scientist в команде видеоаналитики бэк-офиса Wildberries & Russ.Камеры видят всё. Вопрос в том, распознают ли наши алгоритмы, что именно они видят, — и насколько быстро, надёжно и без тонны ручной работы это происходит. В этой статье я расскажу, как мы используем Self-Supervised, Zero-Shot и мультимодальные модели, чтобы приблизиться к максимально возможной эффективности.Зачем нужна видеоаналитика?Видеоаналитикой называют любые подходы и алгоритмы, которые позволяют в автоматическом режиме отслеживать видеопоток и находить интересующие события или объекты.
AutismSmartDetector: Система для определения черт аутистического спектра
Оригинал материалаОригинал фото
Когда несколько пикселей решают всё: One Pixel атака и способы защиты от неё
Удивительно, но факт: несколько изменений в изображении может полностью изменить вывод нейросети, что ломает заложенную разработчиком логику. В данной статье мы не просто подсветим факт существования One Pixel атаки, но и комплексно разберём архитектурные факторы, которые влияют на устойчивость CV-систем к данному семейству атак.
Как я написал покер‑бот за 4 недели, используя Cursor + GPT
1. ВводнаяЭто мой первый опыт написания статьи. Судим, но не строго.Недавно завершил интересный пэт-проект. Настолько интересный, что захотелось поделиться.Это десктопная программа, которая:Считывает скрин игрового стола в покере.С помощью компьютерного зрения извлекает расклад, ставки и карты.Рассчитывает ожидаемую выгоду (EV) каждого действия методом Монте-Карло.Показывает на экране, что выгоднее сделать прямо сейчас.
Готовимся к собесу: positional encodings в 2025 году
Если вы до сих пор считаете, что positional encoding в трансформерах — это знаменитые sin/cos из статьи 2017 года, то боюсь, что собеседование для вас закончится автоматическим реджектом.Позиционное кодирование заметно эволюционировало с момента появления оригинальной статьи о трансформерах. В современных LLM и моделях компьютерного зрения, таких как FLUX, уже давно не используется классическое sin/cos-кодирование.Про это почему-то не знают 80% кандидатов на интервью, хотя, казалось бы, эта информация уже давно перешла в разряд «базовой классики».

