清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学提出了一种名为“绝对零”的训练方法,通过大模型自我生成和解决推理任务,无需外部数据即可提升数学推理能力。
测试结果显示,“绝对零”训练的模型在数学推理任务上的表现超过了使用专家标注样本训练的模型,并且在编程任务上的通过率也有所提升。
该方法采用自我博弈的学习范式,通过Proposer生成任务和Solver求解任务的交替过程,使模型能够自主构建学习任务并不断提升推理能力。
清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学提出了一种名为“绝对零”的训练方法,通过大模型自我生成和解决推理任务,无需外部数据即可提升数学推理能力。
测试结果显示,“绝对零”训练的模型在数学推理任务上的表现超过了使用专家标注样本训练的模型,并且在编程任务上的通过率也有所提升。
该方法采用自我博弈的学习范式,通过Proposer生成任务和Solver求解任务的交替过程,使模型能够自主构建学习任务并不断提升推理能力。