2025美国最新奥数题，让大模型集体翻车，DeepSeek R1平均分也不到5%

当前的大型语言模型（LLMs）在解决复杂的数学证明题方面表现不佳，平均得分不到5%，尤其是在生成严格证明方面存在显著差距。

研究发现，模型在逻辑推理、创造性策略探索和避免无根据假设等方面存在常见失败模式，而这些能力对于严格的数学证明至关重要。

自动评分系统也无法准确评估这些模型的解答质量，这进一步凸显了当前LLMs在数学推理任务中的局限性。

2025年4月3日上午7:06 分享到:

上一篇：Meta 新款智能眼镜曝光，摄像头大升级支持隔空操作，价格比肩顶配 iPhone

下一篇：中国车市淡季不淡：小鹏一季度领跑，鸿蒙智行3月隐身，同期销冠竟然是它…