[快讯] 英伟达揭示RL Scaling魔力！训练步数翻倍=推理能力质变，小模型突破推理极限

来自英伟达的ProRL框架通过长期强化学习显著提升了大语言模型的推理能力，特别是在逻辑谜题和数学任务上取得了重大突破。

ProRL通过多样化可验证奖励、改进算法组合、KL正则化和周期性策略重置等技术手段，解决了传统RL训练中的熵崩塌和性能震荡等问题，使得模型能够生成全新的解题路径。

这项研究证明了长期稳定的强化学习能够真正拓宽模型的能力边界，为小模型在复杂推理任务中的应用提供了新的可能性。