DeepSeek同款GRPO训练大提速!魔搭开源全流程方案,支持多模态训练、训练加速和评测全链路

ModelScope魔搭社区推出了一套针对GRPO训练的全流程开源方案,旨在提高多模态训练效率和评测能力。

该方案通过优化采样效率、支持异步采样和模型placement等技术,显著提升了GRPO训练的速度,并结合LMDeploy推理框架进一步加速了整体训练过程。

多轮更新机制的引入使得采样数据可以被多次利用,进一步提高了训练效率。

[原文链接]

上一篇:

下一篇:

微信