NVIDIA тихо выкатили убийцу поиска по PDF. ai.. ai. nvidia.. ai. nvidia. Блог компании BotHub.. ai. nvidia. Блог компании BotHub. ИИ.. ai. nvidia. Блог компании BotHub. ИИ. искусственный интеллект.. ai. nvidia. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение.. ai. nvidia. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. nvidia. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. nvidia. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.. ai. nvidia. Блог компании BotHub. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети. Программирование.
NVIDIA тихо выкатили убийцу поиска по PDF - 1

NVIDIA представила семейство мультимодальных моделей Nemotron ColEmbed V2, ориентированных на точный поиск по визуальным документам (когда запрос – текст, а документ может быть изображением страницы). В релиз вошли варианты 3B, 4B и 8B, рассчитанные на задачи query-document retrieval в корпоративных и RAG-сценариях, где важно надежно сопоставлять текстовый запрос с содержимым визуально сложных страниц.

Ключевая инженерная идея семейства 0- late interaction в стиле ColBERT: модели формируют многовекторные эмбеддинги для запросов и документов и уже на этапе сопоставления используют механизм позднего взаимодействия, что в описании прямо связывается с упором на точность извлечения. В статье также отмечаются связанные с этим практические компромиссы (в частности, вопросы хранения/инженерные издержки late interaction) и перечисляются применяемые техники обучения и постобработки, включая hard-negative mining, двунаправленное внимание и model merging.

По бенчмаркам NVIDIA заявляет лидерство на ViDoRe V3: в блоге Hugging Face (материал от NVIDIA) указано, что версия 8B занимает 1 место со средним NDCG@10 = 63.42, а версии 4B и 3B занимают 3 и 6 места (61.54 и 59.79 соответственно). В карточке модели отдельно зафиксировано, что nvidia/nemotron-colembed-vl-8b-v2 по состоянию на 26 января 2026 года также занимала 1 место на ViDoRe V3 с результатом 63.54 (по 8 публичным задачам).

По бэкбону семейство собрано на разных VLM. Вариант 3B построен на NVIDIA Eagle 2 с backbone Llama 3.2 3B, а варианты 4B и 8B – на Qwen3-VL-4B-Instruct и Qwen3-VL-8B-Instruct соответственно. Для 8B-версии в model card/README отдельно отмечены ориентиры по использованию: требуется transformers 5.0.0rc0 и установленный flash attention, а также описаны улучшения вроде post-training model merging и расширенной смеси multilingual synthetic data.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Автор: cognitronn

Источник

Rambler's Top100