清华大学 LeapLab 团队等提出了一种全新的推理训练范式 Absolute Zero,使大模型能在无需依赖人类或 AI 生成的数据任务的情况下,通过自我提出任务并自主解决,实现“自我进化式学习”。该范式不仅显著提升了模型的推理能力,还推动了推理模型从依赖人类监督向依赖环境监督的转变。
Absolute Zero Reasoner(AZR)在零数据条件下实现了数学和代码推理 benchmark 上的 SOTA 性能,展示了出色的分布外推理能力,并超越了依赖大量人工标注数据的传统模型。
这一范式的提出标志着推理模型训练从“模仿人类”迈向“自主成长”的关键一步,为构建具备持续自我进化能力的智能体开辟了新路径。