DeepSeek 开源第三枪:加速推理只需300行代码

DeepGEMM高性能矩阵计算库正式开源,专为提升大模型训练与推理速度设计,在Hopper架构GPU上实现FP8精度下1350+ TFLOPS的算力,仅300行代码便实现卓越性能。

DeepGEMM支持FP8精度计算,相比传统32位浮点运算,速度提升3倍以上,同时兼容稠密矩阵布局和混合MoE布局,灵活应对不同场景需求。

DeepSeek计划于5月发布R2模型,DeepSeek正构建全栈开源Infra体系,旨在降低AI创新的算力成本,同时重新开放API充值入口,调整调用价格。

[原文链接]

上一篇:

下一篇:

微信