Гармония восприятия и генерации: новый эталон для мультимодальных моделей
Автор: Денис АветисянДолгое время искусственный интеллект испытывал трудности в интеграции зрительного и языкового восприятия, оставаясь лишь поверхностным в понимании сложных взаимосвязей между ними. Однако, прорыв, представленный в Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark

