компьютерное зрение.

Мы можем решать задачи компьютерного зрения без видеокарт. И вам советуем

Когда-нибудь спрашивали себя, какие технологии должны быть в башке терминатора из фильмов Джеймса Кэмерона, чтобы он (терминатор) мог обрабатывать данные так, как он это делает в дилогии? (Остальные сиквелы/приквелы за фильмы мы не считаем – третья часть получилась вопреки желаниям создателей плохой комедией; последующие – попсовой стыдобой; более-менее спин-офф "Да придет спаситель", но и там слишком часто приходится протирать экран от липкой тонкой пленки плохого пафоса).

продолжить чтение

Почему будущие ИТ-устройства должны работать без 0 и 1, если они хотят быть ИТ-устройствами будущего

Давно уже пришла пора выбросить на помойку идею арифметико-логических устройств (в просторечии АЛУ), на которых работают ваши и наши компьютеры (ибо именно из-за них все эти технологии перестали быть достаточно круты, чтобы делать действительно клевые штуки не только в фильмах Ридли Скотта), но воз и ныне там.

продолжить чтение

Как свёрточные нейронные сети видят мир

Привет, Хабр! Меня зовут Яна Вольнова, я ex-разработчик систем распознавания образов, а сейчас преподаю глубокое машинное обучение в МГТУ им. Н.Э. Баумана и пишу курсы для Яндекс Практикума, например, «Инженер по глубокому обучению нейросетей» и «Компьютерное зрение — CV»

продолжить чтение

Трекинг объектов с подвижной камеры: когда компьютерное зрение встречается с механикой

Статья приурочена к курсу «Компьютерное зрение. Advanced»Беспилотные технологии все больше проникают во все направления нашей жизни. Сейчас вполне реальной является ситуация, когда дрон облетает промышленный реактор, отслеживая микротрещины на корпусе. При этом, камера дрожит от вибраций, объект меняет масштаб за секунду, солнце бликует на металле, а система должна принимать решения за 30 миллисекунд. И это вовсе не хайп, а реальный вызов современной робототехники.

продолжить чтение

OCR всё прочитал, но ничего не понял: как мы научили систему разбирать транспортные накладные

Материал подготовлен для будущих студентов курса «Компьютерное зрение».Каждый день склады обрабатывают тысячи транспортных наклеек. FedEx, UPS, DHL, USPS, региональные перевозчики — у каждого свой макет, свои размеры шрифтов и расположение полей. На наклейке FedEx номер отслеживания может находиться наверху, а на наклейке DHL — посередине. Обратный адрес у одного перевозчика выровнен по левому краю, у другого — по центру.

продолжить чтение

Сервинг модели Grounding DINO с BentoML

Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство пользователей о ней даже не узнает.Запуск ML-моделей в production-среде — это тот еще квест:  

продолжить чтение

TAPe‑детекция против COCO и SOTA: как мы обошли RF‑DETR и YOLO, с легкостью уложившись в 100k параметров (вместо 100M)

Мы довели TAPe‑детекцию на COCO до уровня лучших SOTA‑моделей по точности, но с двумя порядками выигрыша по параметрам и радикально меньшими требованиями к данным и ресурсам. При этом модель держит 7–8 мс на изображение при mAP50 на уровне RF‑DETR‑2XL и работает почти одинаково быстро на GPU и CPU. В этом финальном посте нашего "дневника" мы подведем итоги эксперимента, покажем ключевые бенчмарки и объясним, почему TAPe‑подход позволяет реально экономить данные, железо и время разработки.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML —

продолжить чтение

ИИ из Иннополиса научился взвешивать свиней по видео без контакта

продолжить чтение

TAPe‑дневник, день 8: сегментация по границам, 77% классификации и первые бенчмарки против YOLO

В этом посте продолжаем дневник TAPe‑детекции на COCO: добавляем сегментацию по контрастным патчам на границе объектов, дорабатываем классификацию, избавляемся от learning rate и смотрим, как ведёт себя YOLO на нашем маленьком датасете.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML — TAPe + ML: универсальная архитектура компьютерного зренияFAQ по TAPe‑детекции — FAQ по TAPe‑детекции объектов (как мы учимся детектить объекты одномоментно и в десятки раз эффективней/дешевле ML)как TAPe чувствует себя против SOTA —

продолжить чтение

LFM2.5-VL-450M: структурированный визуальный интеллект

Выпущена модель LFM2.5-VL-450M. Это обновленная версия LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные данные в реальном времени на локальных устройствах.

продолжить чтение

123456...10...11