月之暗面开源改进版Muon优化器,算力需求比AdamW锐减48%,DeepSeek也适用

OpenAI的技术人员提出的训练优化算法Muon经过月之暗面团队的改进,算力需求比AdamW锐减48%,适用于更大规模的模型训练。

改进后的Muon与DeepSeek架构结合,训练出一个16B的MoE模型,展示了在多个任务上的优越性能,并且证明了Muon在大规模训练中的效率优势。

月之暗面团队的成果不仅解决了Muon在大规模训练中的适用性问题,还进一步提升了模型的性能,推动了优化算法的发展。

[原文链接]

上一篇:

下一篇:

微信