英伟达含量为零!华为密集模型性能比肩DeepSeek-R1,纯昇腾集群训练

华为利用纯昇腾集群训练出的盘古Ultra,在数学竞赛、编程等推理任务中表现出色,其参数量为135B,训练过程中未使用英伟达硬件且未出现损失尖峰。

盘古Ultra采用了“三明治”层归一化架构和TinyInit参数初始化策略,通过优化模型架构和系统策略,实现了高效的训练和优异的性能表现。

整个训练流程分为预训练、长上下文扩展和指令调优三个阶段,使用了8192张昇腾NPU训练集群,并采用多种并行策略和优化技术以提高训练效率。

[原文链接]

上一篇:

下一篇:

微信