大模型全军覆没,中科院自动化所推出多图数学推理新基准

中国科学院自动化研究所推出新的多图数学推理数据集MV-MATH,旨在全面评估多模态大语言模型(MLLM)在多视觉场景中的数学推理能力。

在该数据集上的实验结果显示,包括GPT-4o和QvQ在内的多个模型表现不佳,整体准确率远低于人类水平,表明MLLM在处理复杂多视觉数学任务时存在显著挑战。

研究强调,MLLM在处理需要复杂图像理解和推理的领域时面临较大困难,揭示了其在多图推理上的改进空间。

[原文链接]

上一篇:

下一篇:

微信