美团搜推团队开源了INT8无损满血版DeepSeek R1模型,相比BF16实现50%的吞吐提升,适用于A100等更多型号GPU。
该模型通过分块量化和通道量化技术,保持了与原FP8模型相近的精度,并在知名推理框架SGLang上实现了更高的推理吞吐。
用户可以通过Hugging Face社区获取量化后的模型,并在双节点A100 GPU上进行部署。
美团搜推团队开源了INT8无损满血版DeepSeek R1模型,相比BF16实现50%的吞吐提升,适用于A100等更多型号GPU。
该模型通过分块量化和通道量化技术,保持了与原FP8模型相近的精度,并在知名推理框架SGLang上实现了更高的推理吞吐。
用户可以通过Hugging Face社区获取量化后的模型,并在双节点A100 GPU上进行部署。