[快讯] 北大物院200人合作，金牌得主超50人！PHYBench：大模型究竟能不能真的懂物理？

北京大学物理学院联合多个院系推出全新物理评测基准 PHYBench，包含500道高质量物理题，旨在评估大模型的推理能力，结果显示大模型与人类专家之间存在显著差距。

PHYBench 引入创新的评分机制 EED Score，能够更准确地评估模型解答与正确答案之间的“距离”，实验表明其区分能力相当于传统基准的1500道题目。

该评测基准不仅为评估大模型的能力提供了新工具，还揭示了模型在物理感知和鲁棒推理方面的不足，推动AI在物理理解与推理能力上的发展。