清华&通院推出”绝对零”训练法，零外部数据大模型自我博弈解锁推理能力

清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学提出了一种名为“绝对零”的训练方法，通过大模型自我生成和解决推理任务，无需外部数据即可提升数学推理能力。

测试结果显示，“绝对零”训练的模型在数学推理任务上的表现超过了使用专家标注样本训练的模型，并且在编程任务上的通过率也有所提升。

该方法采用自我博弈的学习范式，通过Proposer生成任务和Solver求解任务的交替过程，使模型能够自主构建学习任务并不断提升推理能力。

2025年5月12日下午6:59 分享到:

上一篇：一张照片实现超70种百万级运镜！这款AI神器给了摄影师一记「铁拳」

下一篇：曝国产Agent黑马完成超5亿融资，估值暴增5倍，将扩大海外市场

公众号