腾讯&苏州大学团队提出新框架RLVR,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科,通过基于生成模型的软奖励提升了大模型在这些领域的表现。
研究发现,7B参数的奖励模型在处理非结构化参考答案和多学科任务时表现出色,且在数据量增加时更具可扩展性。
该研究未使用思维链推理,但仍需进一步探讨如何在缺乏直接监督时分配奖励以及格式约束对奖励设计的影响。
腾讯&苏州大学团队提出新框架RLVR,将强化学习训练扩展到医学、化学、法律、心理学、经济学等多学科,通过基于生成模型的软奖励提升了大模型在这些领域的表现。
研究发现,7B参数的奖励模型在处理非结构化参考答案和多学科任务时表现出色,且在数据量增加时更具可扩展性。
该研究未使用思维链推理,但仍需进一步探讨如何在缺乏直接监督时分配奖励以及格式约束对奖励设计的影响。