当前的大型语言模型(LLMs)在解决复杂的数学证明题方面表现不佳,平均得分不到5%,尤其是在生成严格证明方面存在显著差距。
研究发现,模型在逻辑推理、创造性策略探索和避免无根据假设等方面存在常见失败模式,而这些能力对于严格的数学证明至关重要。
自动评分系统也无法准确评估这些模型的解答质量,这进一步凸显了当前LLMs在数学推理任务中的局限性。
当前的大型语言模型(LLMs)在解决复杂的数学证明题方面表现不佳,平均得分不到5%,尤其是在生成严格证明方面存在显著差距。
研究发现,模型在逻辑推理、创造性策略探索和避免无根据假设等方面存在常见失败模式,而这些能力对于严格的数学证明至关重要。
自动评分系统也无法准确评估这些模型的解答质量,这进一步凸显了当前LLMs在数学推理任务中的局限性。