浙江大学、电子科技大学和香港中文大学的研究团队提出了首个系统评估视觉语言大模型多视角多任务下的空间定位能力的基准体系——ViewSpatial-Bench,涵盖五种不同的任务类型,全面评估模型的空间推理能力,并实现了模型性能的整体提升46.24%。
研究发现,当前主流模型在涉及多视角空间定位时缺乏空间感与换位思考能力,特别是在人物视角下的表现优于摄像头视角。为此,研究团队开发了Multi-View Spatial Model(MVSM),专门用于跨视角空间理解,显著提升了模型的空间理解能力。
ViewSpatial-Bench和MVSM的提出为AI系统获得类人空间认知能力提供了可行路径,有助于下一代机器人与多模态助手的发展。