DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

ModelScope魔搭社区推出了一套针对GRPO训练的全流程开源方案，旨在提高多模态训练效率和评测能力。

该方案通过优化采样效率、支持异步采样和模型placement等技术，显著提升了GRPO训练的速度，并结合LMDeploy推理框架进一步加速了整体训练过程。

多轮更新机制的引入使得采样数据可以被多次利用，进一步提高了训练效率。

2025年3月10日上午6:59 分享到:

上一篇：Claude玩宝可梦，卡关就「装死」重启，大模型：逃避可耻但有用

下一篇：“偷懒摸鱼”的你，捧红了DeepSeek一体机？