[快讯] 已节省数百万GPU小时！字节再砍MoE训练成本，核心代码全开源

字节跳动对MoE模型训练成本进行了优化，通过开源的COMET技术可节省40%的成本。该技术通过细粒度计算-通信折叠及动态资源分配，解决了MoE模型在分布式训练中的通信开销问题，提升了训练效率。

COMET通过共享张量依赖解析和计算重调度，实现了计算与通信的高效重叠；并通过自适应负载分配，动态平衡通信与计算负载，进一步提升了性能。该技术已在多个大规模MoE模型中得到验证，显著提升了训练效率。