DeepSeek V3/R1开源工具箱发布,提供低成本监督微 调方案,支持LoRA、强化学习等技术,适用于HuggingFace模型和多种硬件,降低大模型微调成本。
该工具箱包含DeepSeek V3/R1满血671B参数的LoRA低成本SFT微调、强化学习工具链等,支持BF16权重和混合精度训练,适用于Ascend 910B NPU和H100/H800 GPU。
Colossal-AI团队还提供了通过强化学习微调蒸馏版DeepSeek的方法,验证了GRPO算法及verifiable reward,降低资金充裕团队和 预算有限团队的开发门槛。