GPT-4o不敌Qwen，无一模型及格！UC伯克利港大等提出多模态新基准

多视图理解推理有了新的评判标准——All-Angles Bench，该基准涵盖了90个真实场景下的2100组人工标注的多视图问答对，旨在全面评估MLLMs的多视图理解能力。

研究团队对27个领先的多模态大语言模型进行测试，结果显示这些模型在多视图理解能力上与人类水平存在显著差距，特别是在遮挡情况下的跨视图对应能力和粗略相机位姿估计方面表现较差。