Мы можем решать задачи компьютерного зрения без видеокарт. И вам советуем
Когда-нибудь спрашивали себя, какие технологии должны быть в башке терминатора из фильмов Джеймса Кэмерона, чтобы он (терминатор) мог обрабатывать данные так, как он это делает в дилогии? (Остальные сиквелы/приквелы за фильмы мы не считаем – третья часть получилась вопреки желаниям создателей плохой комедией; последующие – попсовой стыдобой; более-менее спин-офф "Да придет спаситель", но и там слишком часто приходится протирать экран от липкой тонкой пленки плохого пафоса).
Почему будущие ИТ-устройства должны работать без 0 и 1, если они хотят быть ИТ-устройствами будущего
Давно уже пришла пора выбросить на помойку идею арифметико-логических устройств (в просторечии АЛУ), на которых работают ваши и наши компьютеры (ибо именно из-за них все эти технологии перестали быть достаточно круты, чтобы делать действительно клевые штуки не только в фильмах Ридли Скотта), но воз и ныне там.
Как свёрточные нейронные сети видят мир
Привет, Хабр! Меня зовут Яна Вольнова, я ex-разработчик систем распознавания образов, а сейчас преподаю глубокое машинное обучение в МГТУ им. Н.Э. Баумана и пишу курсы для Яндекс Практикума, например, «Инженер по глубокому обучению нейросетей» и «Компьютерное зрение — CV»
Трекинг объектов с подвижной камеры: когда компьютерное зрение встречается с механикой
Статья приурочена к курсу «Компьютерное зрение. Advanced»Беспилотные технологии все больше проникают во все направления нашей жизни. Сейчас вполне реальной является ситуация, когда дрон облетает промышленный реактор, отслеживая микротрещины на корпусе. При этом, камера дрожит от вибраций, объект меняет масштаб за секунду, солнце бликует на металле, а система должна принимать решения за 30 миллисекунд. И это вовсе не хайп, а реальный вызов современной робототехники.
OCR всё прочитал, но ничего не понял: как мы научили систему разбирать транспортные накладные
Материал подготовлен для будущих студентов курса «Компьютерное зрение».Каждый день склады обрабатывают тысячи транспортных наклеек. FedEx, UPS, DHL, USPS, региональные перевозчики — у каждого свой макет, свои размеры шрифтов и расположение полей. На наклейке FedEx номер отслеживания может находиться наверху, а на наклейке DHL — посередине. Обратный адрес у одного перевозчика выровнен по левому краю, у другого — по центру.
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство пользователей о ней даже не узнает.Запуск ML-моделей в production-среде — это тот еще квест:
TAPe‑детекция против COCO и SOTA: как мы обошли RF‑DETR и YOLO, с легкостью уложившись в 100k параметров (вместо 100M)
Мы довели TAPe‑детекцию на COCO до уровня лучших SOTA‑моделей по точности, но с двумя порядками выигрыша по параметрам и радикально меньшими требованиями к данным и ресурсам. При этом модель держит 7–8 мс на изображение при mAP50 на уровне RF‑DETR‑2XL и работает почти одинаково быстро на GPU и CPU. В этом финальном посте нашего "дневника" мы подведем итоги эксперимента, покажем ключевые бенчмарки и объясним, почему TAPe‑подход позволяет реально экономить данные, железо и время разработки.Если вы тут впервые, сначала можно посмотреть:базовую статью про TAPe+ML —
LFM2.5-VL-450M: структурированный визуальный интеллект
Выпущена модель LFM2.5-VL-450M. Это обновленная версия LFM2-VL-450M, в которую добавили функции заземления, улучшенное следование инструкциям и поддержку вызова функций. Модель преобразует видеопоток в структурированные данные в реальном времени на локальных устройствах.

