- BrainTools - https://www.braintools.ru -

NVIDIA представила [1]семейство мультимодальных моделей Nemotron ColEmbed V2, ориентированных на точный поиск по визуальным документам (когда запрос – текст, а документ может быть изображением страницы). В релиз вошли варианты 3B, 4B и 8B, рассчитанные на задачи query-document retrieval в корпоративных и RAG-сценариях, где важно надежно сопоставлять текстовый запрос с содержимым визуально сложных страниц.
Ключевая инженерная идея семейства 0- late interaction в стиле ColBERT: модели формируют многовекторные эмбеддинги для запросов и документов и уже на этапе сопоставления используют механизм позднего взаимодействия, что в описании прямо связывается с упором на точность извлечения. В статье также отмечаются связанные с этим практические компромиссы (в частности, вопросы хранения/инженерные издержки late interaction) и перечисляются применяемые техники обучения [2] и постобработки, включая hard-negative mining, двунаправленное внимание [3] и model merging.
По бенчмаркам NVIDIA заявляет лидерство [4] на ViDoRe V3: в блоге Hugging Face (материал от NVIDIA) указано, что версия 8B занимает 1 место со средним NDCG@10 = 63.42, а версии 4B и 3B занимают 3 и 6 места (61.54 и 59.79 соответственно). В карточке модели отдельно зафиксировано, что nvidia/nemotron-colembed-vl-8b-v2 по состоянию на 26 января 2026 года также занимала 1 место на ViDoRe V3 с результатом 63.54 (по 8 публичным задачам).
По бэкбону семейство собрано на разных VLM. Вариант 3B построен на NVIDIA Eagle 2 с backbone Llama 3.2 3B, а варианты 4B и 8B – на Qwen3-VL-4B-Instruct и Qwen3-VL-8B-Instruct соответственно. Для 8B-версии в model card/README отдельно отмечены ориентиры по использованию: требуется transformers 5.0.0rc0 и установленный flash attention, а также описаны улучшения вроде post-training model merging и расширенной смеси multilingual synthetic data.
Делегируйте часть рутинных задач вместе с BotHub! [5] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [6] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: cognitronn
Источник [7]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/25276
URLs in this post:
[1] представила : https://huggingface.co/nvidia/nemotron-colembed-vl-8b-v2
[2] обучения: http://www.braintools.ru/article/5125
[3] внимание: http://www.braintools.ru/article/7595
[4] лидерство: http://www.braintools.ru/article/1165
[5] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=RELEASE_OPENAI_GPT-5_3-CODEX_25_PERCENT_FASTER_NEW_ACHIEVEMENTS_ON_SWE-BENCH_PRO_AND_TERMINAL-BENCH
[6] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[7] Источник: https://habr.com/ru/companies/bothub/news/993438/?utm_source=habrahabr&utm_medium=rss&utm_campaign=993438
Нажмите здесь для печати.