中国科学院自动化研究所推出新的多图数学推理数据集MV-MATH,旨在全面评估多模态大语言模型(MLLM)在多视觉场景中的数学推理能力。
在该数据集上的实验结果显示,包括GPT-4o和QvQ在内的多个模型表现不佳,整体准确率远低于人类水平,表明MLLM在处理复杂多视觉数学任务时存在显著挑战。
研究强调,MLLM在处理需要复杂图像理解和推理的领域时面临较大困难,揭示了其在多图推理上的改进空间。
中国科学院自动化研究所推出新的多图数学推理数据集MV-MATH,旨在全面评估多模态大语言模型(MLLM)在多视觉场景中的数学推理能力。
在该数据集上的实验结果显示,包括GPT-4o和QvQ在内的多个模型表现不佳,整体准确率远低于人类水平,表明MLLM在处理复杂多视觉数学任务时存在显著挑战。
研究强调,MLLM在处理需要复杂图像理解和推理的领域时面临较大困难,揭示了其在多图推理上的改进空间。