2025美国最新奥数题,让大模型集体翻车,DeepSeek R1平均分也不到5%

当前的大型语言模型(LLMs)在解决复杂的数学证明题方面表现不佳,平均得分不到5%,尤其是在生成严格证明方面存在显著差距。

研究发现,模型在逻辑推理、创造性策略探索和避免无根据假设等方面存在常见失败模式,而这些能力对于严格的数学证明至关重要。

自动评分系统也无法准确评估这些模型的解答质量,这进一步凸显了当前LLMs在数学推理任务中的局限性。

[原文链接]

上一篇:

下一篇:

微信