Трекинг объектов с подвижной камеры: когда компьютерное зрение встречается с механикой
Статья приурочена к курсу «Компьютерное зрение. Advanced»Беспилотные технологии все больше проникают во все направления нашей жизни. Сейчас вполне реальной является ситуация, когда дрон облетает промышленный реактор, отслеживая микротрещины на корпусе. При этом, камера дрожит от вибраций, объект меняет масштаб за секунду, солнце бликует на металле, а система должна принимать решения за 30 миллисекунд. И это вовсе не хайп, а реальный вызов современной робототехники.
OCR всё прочитал, но ничего не понял: как мы научили систему разбирать транспортные накладные
Материал подготовлен для будущих студентов курса «Компьютерное зрение».Каждый день склады обрабатывают тысячи транспортных наклеек. FedEx, UPS, DHL, USPS, региональные перевозчики — у каждого свой макет, свои размеры шрифтов и расположение полей. На наклейке FedEx номер отслеживания может находиться наверху, а на наклейке DHL — посередине. Обратный адрес у одного перевозчика выровнен по левому краю, у другого — по центру.
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство пользователей о ней даже не узнает.Запуск ML-моделей в production-среде — это тот еще квест:
TAPe‑детекция против COCO и SOTA: как мы обошли RF‑DETR и YOLO, с легкостью уложившись в 100k параметров (вместо 100M)
Мы довели TAPe‑детекцию на COCO до уровня лучших SOTA‑моделей по точности, но с двумя порядками выигрыша по параметрам и радикально меньшими требованиями к данным и ресурсам. При этом модель держит 7–8 мс на изображение при mAP50 на уровне RF‑DETR‑2XL и работает почти одинаково быстро на GPU и CPU. В этом финальном посте нашего "дневника" мы подведем итоги эксперимента, покажем ключевые бенчмарки и объясним, почему TAPe‑подход позволяет реально экономить данные, железо и время разработки.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML —
LFM2.5-VL-450M: структурированный визуальный интеллект
Выпущена модель LFM2.5-VL-450M. Это обновленная версия LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные данные в реальном времени на локальных устройствах.
Как мы автоматизировали модерацию карточек товаров с помощью Computer Vision в Wildberries
Привет! Я Дмитрий Колесников, Team Lead DS-команды «Платформа модерации» в Wildberries & Russ. В этой статье по мотивам моего доклада на HighLoad расскажу, как у нас получилось превратить сотни Computer Vision моделей в единый масштабируемый пайплайн, который ежедневно обрабатывает 15 млн карточек товаров (50+ млн изображений и 500K видео).Что еще будет в статье?Computer Vision‑архитектура системы модерации Wildberries: как мы унифицировали модели через TensorRT и DALI, перешли к шаблонной архитектуре «общий бэкбон - легкие головы» и построили ансамбль в Triton, чтобы снизить нагрузку и ускорить деплой.
Как подбирать аугментации: гипотезы, протокол и метрики
Одно и то же изображение под разными аугментациями

