近年来,大型视觉-语言模型在视觉理解和语言处理方面取得了显著进展,但在现有的视觉数学基准测试中,这些模型的表现可能受到预嵌入知识的影响,掩盖了其基本数学元素和视觉概念的理解与推理能力。为此,研究团队提出了VCBench,这是一个专为评估具备显式视觉依赖性的多模态数学推理任务而设计的综合基准。
VCBench主要针对小学1-6年级的数学问题,这些问题高度依赖于对数学图像和概念的常见感知推理,全面评估了纯视觉推理的多种能力,涵盖了六大核心认知领域和五种不同的认知能力。该基准的设计旨在更准确地评估模型的视觉推理能力,特别是在多图推理方面。