刚刚,DeepSeek公布推理时Scaling新论文,R2要来了?

本周,DeepSeek 和清华大学的研究人员在 arXiv 上提交了一篇关于通用奖励模型(GRM)的新论文,探讨了如何提升 GRM 在推理阶段的可扩展性。他们提出了一种名为 Self-Principled Critique Tuning (SPCT) 的新方法,通过自我生成原则和批评来提高奖励的质量和扩展性,并基于此训练了 DeepSeek-GRM-27B 模型。

研究发现,SPCT 在多个综合 RM 基准测试中显著优于现有方法,且在推理时间扩展方面表现出色,甚至优于通过增加模型规模带来的训练效果提升。此外,DeepSeek 还引入了一种元奖励模型(meta RM),进一步提升了 DeepSeek-GRM 的推理效果。

[原文链接]

上一篇:

下一篇:

微信