3月26日,ETH等团队发布的一项研究揭示了大型语言模型(LLM)在数学证明能力上的严重不足,所有模型在2025年美国数学奥林匹克竞赛(USAMO)中的得分均低于5%,最高得分为4.76%,远低于预期。
研究指出,LLM在逻辑推理、创造力和自我评估方面存在显著缺陷,如逻辑错误、缺乏创新解题策略以及无法可靠评估自身工作,这表明LLM并未真正掌握数学证明能力。
尽管如此,研究中DeepSeek模型的表现相对突出,但在证明过程中仍存在诸多问题,显示出当前LLM在生成严格数学证明方面的重大局限。
3月26日,ETH等团队发布的一项研究揭示了大型语言模型(LLM)在数学证明能力上的严重不足,所有模型在2025年美国数学奥林匹克竞赛(USAMO)中的得分均低于5%,最高得分为4.76%,远低于预期。
研究指出,LLM在逻辑推理、创造力和自我评估方面存在显著缺陷,如逻辑错误、缺乏创新解题策略以及无法可靠评估自身工作,这表明LLM并未真正掌握数学证明能力。
尽管如此,研究中DeepSeek模型的表现相对突出,但在证明过程中仍存在诸多问题,显示出当前LLM在生成严格数学证明方面的重大局限。