大模型全军覆没，中科院自动化所推出多图数学推理新基准

中国科学院自动化研究所推出新的多图数学推理数据集MV-MATH，旨在全面评估多模态大语言模型（MLLM）在多视觉场景中的数学推理能力。

在该数据集上的实验结果显示，包括GPT-4o和QvQ在内的多个模型表现不佳，整体准确率远低于人类水平，表明MLLM在处理复杂多视觉数学任务时存在显著挑战。

研究强调，MLLM在处理需要复杂图像理解和推理的领域时面临较大困难，揭示了其在多图推理上的改进空间。

2025年3月12日上午6:59 分享到:

上一篇：Pepper之父又造了个AI外星娃，售价3万美金！比爱马仕实用多了

下一篇：2月中国AI大模型平台排行榜