北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?

北京大学物理学院联合多个院系推出全新物理评测基准 PHYBench,包含500道高质量物理题,旨在评估大模型的推理能力,结果显示大模型与人类专家之间存在显著差距。

PHYBench 引入创新的评分机制 EED Score,能够更准确地评估模型解答与正确答案之间的“距离”,实验表明其区分能力相当于传统基准的1500道题目。

该评测基准不仅为评估大模型的能力提供了新工具,还揭示了模型在物理感知和鲁棒推理方面的不足,推动AI在物理理解与推理能力上的发展。

[原文链接]

上一篇:

下一篇:

微信