DeepSeek的MLA,任意大模型都能轻松迁移了

复旦大学NLP实验室博士后纪焘等人提出了一种名为MHA2MLA的框架,旨在将基于标准多头注意力机制(MHA)的预训练大语言模型高效迁移到经济推理架构——多头潜在注意力机制(MLA),显著降低推理成本。

该框架通过部分RoPE保留和键值联合表示低秩近似两个关键步骤实现迁移,仅需使用预训练数据的0.3%到0.6%进行高效微调,即可基本还原架构迁移带来的性能损失,并且还能结合其他高效推理技术进一步优化。

实验结果表明,MHA2MLA在多种规模的语言模型上表现出色,能够显著减少推理时的访存瓶颈,证明了其在实际应用中的潜力。

[原文链接]

上一篇:

下一篇:

微信