DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法

DeepSeek团队开发了一种名为CoE(Chain-of-Experts)的新方法,通过在单层内实现专家间的串行通信,减少了MoE模型的内存需求,最高可达42%。

CoE作为一种“免费午餐”优化方法,不仅提高了模型性能,还在保持相似计算预算的情况下,显著降低了内存使用。

该方法由DeepSeek前实习生Zihan Wang及其团队提出,已在多个实验中验证了其优势。

[原文链接]

上一篇:

下一篇:

微信