华为发布了昇腾原生的通用千亿级语言大模型盘古Ultra,证明了基于国产昇腾算力可以实现领先的大规模语言模型研究与开发。该模型在多个评测中超越了其他稠密模型,并通过新的稳定性架构和初始化方法解决了超深千亿级大模型的训练稳定性问题。
盘古Ultra采用了94层Transformer结构,总参数量达135亿,通过Depth-scaled sandwich-norm和TinyInit等技术提升了训练稳定性和性能,并优化了分词器以提升在不同领域的表现。
华为发布了昇腾原生的通用千亿级语言大模型盘古Ultra,证明了基于国产昇腾算力可以实现领先的大规模语言模型研究与开发。该模型在多个评测中超越了其他稠密模型,并通过新的稳定性架构和初始化方法解决了超深千亿级大模型的训练稳定性问题。
盘古Ultra采用了94层Transformer结构,总参数量达135亿,通过Depth-scaled sandwich-norm和TinyInit等技术提升了训练稳定性和性能,并优化了分词器以提升在不同领域的表现。