英伟达含量为零！华为密集模型性能比肩DeepSeek-R1，纯昇腾集群训练

华为利用纯昇腾集群训练出的盘古Ultra，在数学竞赛、编程等推理任务中表现出色，其参数量为135B，训练过程中未使用英伟达硬件且未出现损失尖峰。

盘古Ultra采用了“三明治”层归一化架构和TinyInit参数初始化策略，通过优化模型架构和系统策略，实现了高效的训练和优异的性能表现。

整个训练流程分为预训练、长上下文扩展和指令调优三个阶段，使用了8192张昇腾NPU训练集群，并采用多种并行策略和优化技术以提高训练效率。

2025年4月16日上午12:59 分享到:

上一篇：35.98万元起售，2025款小鹏X9香港上市，科技旗舰全面升舱

下一篇：科创板人工智能：下一个投资风口？