DeepSeek R2来了?全新推理时Scaling论文联手清华震撼发布

DeepSeek和清华的研究者提出了一种新的自我原则点评调优(SPCT)方法,用于提升通用奖励建模在推理阶段的可扩展性,并构建了DeepSeek-GRM系列模型。该方法显著提高了模型的质量和推理扩展性能,在多个基准测试中优于现有方法。

研究者还引入了元奖励模型来进一步提升扩展性能,并发现推理阶段的扩展策略在性能上更具优势,相比扩大模型参数量。

SPCT方法通过结合拒绝式微调和基于规则的在线强化学习,使点式生成式奖励模型能够自适应生成评判原则并准确生成点评内容,从而在多个综合奖励建模基准测试中表现出色。

[原文链接]

上一篇:

下一篇:

微信