DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法

DeepSeek团队开发了一种名为CoE（Chain-of-Experts）的新方法，通过在单层内实现专家间的串行通信，减少了MoE模型的内存需求，最高可达42%。

CoE作为一种“免费午餐”优化方法，不仅提高了模型性能，还在保持相似计算预算的情况下，显著降低了内存使用。

该方法由DeepSeek前实习生Zihan Wang及其团队提出，已在多个实验中验证了其优势。