华为利用纯昇腾集群训练出的盘古Ultra,在数学竞赛、编程等推理任务中表现出色,其参数量为135B,训练过程中未使用英伟达硬件且未出现损失尖峰。
盘古Ultra采用了“三明治”层归一化架构和TinyInit参数初始化策略,通过优化模型架构和系统策略,实现了高效的训练和优异的性能表现。
整个训练流程分为预训练、长上下文扩展和指令调优三个阶段,使用了8192张昇腾NPU训练集群,并采用多种并行策略和优化技术以提高训练效率。
华为利用纯昇腾集群训练出的盘古Ultra,在数学竞赛、编程等推理任务中表现出色,其参数量为135B,训练过程中未使用英伟达硬件且未出现损失尖峰。
盘古Ultra采用了“三明治”层归一化架构和TinyInit参数初始化策略,通过优化模型架构和系统策略,实现了高效的训练和优异的性能表现。
整个训练流程分为预训练、长上下文扩展和指令调优三个阶段,使用了8192张昇腾NPU训练集群,并采用多种并行策略和优化技术以提高训练效率。