DeepSeek通过“开源周”持续展示其在优化英伟达芯片性能方面的强大能力,特别是开源的DeepGEMM库,仅300行代码就实现了显著的计算效率提升,比英伟达CLUTLASS 3.6速度快2.7倍。
DeepSeek还开源了FlashMLA和DeepEP,分别针对高效序列解码和MoE模型的训练与推理,进一步证明其“科技美学”和极致压榨技术。
DeepSeek通过“开源周”持续展示其在优化英伟达芯片性能方面的强大能力,特别是开源的DeepGEMM库,仅300行代码就实现了显著的计算效率提升,比英伟达CLUTLASS 3.6速度快2.7倍。
DeepSeek还开源了FlashMLA和DeepEP,分别针对高效序列解码和MoE模型的训练与推理,进一步证明其“科技美学”和极致压榨技术。