tvm.
5 движков, 1 resnet: битва inference-рантаймов 2026
TL;DR: Прогнал ResNet-50 через PyTorch, ONNX Runtime, OpenVINO, TensorRT и TVM в FP32/FP16/INT8/INT4 на CPU Ryzen 9 6900HS и GPU RTX 3070 Ti Laptop в 46 конфигурациях. Лучший CPU: ONNX Runtime static INT8 — 15.4 ms / 64.8 img/s (×4.0 от torch baseline при bs=1). Лучший GPU: TensorRT INT8 — 1.16 ms / 863 img/s (×5.8). torch.compile + FP16 даёт ×2.6 ускорения без смены движка. Код и данные: github.com/DmitriyValetov/resnet50-inference-benchmark.ВведениеЕсть такая рубрика — бенчмарки гонять. Эта статья как раз из таких. По мотивам ряда публикаций про inference-движки захотелось сделать свою — с более подробными метриками и открытым кодом.

