
NVIDIA представила семейство мультимодальных моделей Nemotron ColEmbed V2, ориентированных на точный поиск по визуальным документам (когда запрос – текст, а документ может быть изображением страницы). В релиз вошли варианты 3B, 4B и 8B, рассчитанные на задачи query-document retrieval в корпоративных и RAG-сценариях, где важно надежно сопоставлять текстовый запрос с содержимым визуально сложных страниц.
Ключевая инженерная идея семейства 0- late interaction в стиле ColBERT: модели формируют многовекторные эмбеддинги для запросов и документов и уже на этапе сопоставления используют механизм позднего взаимодействия, что в описании прямо связывается с упором на точность извлечения. В статье также отмечаются связанные с этим практические компромиссы (в частности, вопросы хранения/инженерные издержки late interaction) и перечисляются применяемые техники обучения и постобработки, включая hard-negative mining, двунаправленное внимание и model merging.
По бенчмаркам NVIDIA заявляет лидерство на ViDoRe V3: в блоге Hugging Face (материал от NVIDIA) указано, что версия 8B занимает 1 место со средним NDCG@10 = 63.42, а версии 4B и 3B занимают 3 и 6 места (61.54 и 59.79 соответственно). В карточке модели отдельно зафиксировано, что nvidia/nemotron-colembed-vl-8b-v2 по состоянию на 26 января 2026 года также занимала 1 место на ViDoRe V3 с результатом 63.54 (по 8 публичным задачам).
По бэкбону семейство собрано на разных VLM. Вариант 3B построен на NVIDIA Eagle 2 с backbone Llama 3.2 3B, а варианты 4B и 8B – на Qwen3-VL-4B-Instruct и Qwen3-VL-8B-Instruct соответственно. Для 8B-версии в model card/README отдельно отмечены ориентиры по использованию: требуется transformers 5.0.0rc0 и установленный flash attention, а также описаны улучшения вроде post-training model merging и расширенной смеси multilingual synthetic data.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn


