北京大学物理学院联合多个院系推出全新物理评测基准 PHYBench,包含500道高质量物理题,旨在评估大模型的推理能力,结果显示大模型与人类专家之间存在显著差距。
PHYBench 引入创新的评分机制 EED Score,能够更准确地评估模型解答与正确答案之间的“距离”,实验表明其区分能力相当于传统基准的1500道题目。
该评测基准不仅为评估大模型的能力提供了新工具,还揭示了模型在物理感知和鲁棒推理方面的不足,推动AI在物理理解与推理能力上的发展。
北京大学物理学院联合多个院系推出全新物理评测基准 PHYBench,包含500道高质量物理题,旨在评估大模型的推理能力,结果显示大模型与人类专家之间存在显著差距。
PHYBench 引入创新的评分机制 EED Score,能够更准确地评估模型解答与正确答案之间的“距离”,实验表明其区分能力相当于传统基准的1500道题目。
该评测基准不仅为评估大模型的能力提供了新工具,还揭示了模型在物理感知和鲁棒推理方面的不足,推动AI在物理理解与推理能力上的发展。