DeepSeek团队开发了一种名为CoE(Chain-of-Experts)的新方法,通过在单层内实现专家间的串行通信,减少了MoE模型的内存需求,最高可达42%。
CoE作为一种“免费午餐”优化方法,不仅提高了模型性能,还在保持相似计算预算的情况下,显著降低了内存使用。
该方法由DeepSeek前实习生Zihan Wang及其团队提出,已在多个实验中验证了其优势。
DeepSeek团队开发了一种名为CoE(Chain-of-Experts)的新方法,通过在单层内实现专家间的串行通信,减少了MoE模型的内存需求,最高可达42%。
CoE作为一种“免费午餐”优化方法,不仅提高了模型性能,还在保持相似计算预算的情况下,显著降低了内存使用。
该方法由DeepSeek前实习生Zihan Wang及其团队提出,已在多个实验中验证了其优势。