Как научить планшет видеть несколько объектов в кадре одновременно: multi-label классификация
Представьте: вам нужно научить камеру планшета почти мгновенно определять, что происходит в кадре. И это не просто «автомобиль» или «человек»: нужно различать и связывать разные категории объектов: документы, текст, людей, QR и штрихкоды. Казалось бы, достаточно взять предобученную модель и заточить для запуска на конкретном железе, в нашем случае это планшет KVADRA_T. Но задача оказалась сложнее из-за доменов классов. Для них не нашлось моделей, которые соответствовали заданным в проекте метрикам и времени исполнения.

