撞车DeepSeek NSA,Kimi杨植麟署名的新注意力架构MoBA发布,代码也公开

昨天,DeepSeek 和月之暗面分别发布了关于改进注意力机制的新论文,分别提出了 NSA 和 MoBA。月之暗面的 MoBA 方法通过将混合专家原理应用于注意力机制,实现对长序列更高效和更有效的处理,并已有一年实际部署验证。相比之下,DeepSeek 的 NSA 尚未公布相关代码。

月之暗面的 MoBA 通过动态选择历史片段(块)进行注意力计算,显著降低了计算成本,能够处理更长、更复杂的提示,而无需按比例增加资源消耗。此外,MoBA 还引入了无参数门控机制,能够在完全注意力和稀疏注意力模式之间实现平滑过渡。

[原文链接]

上一篇:

下一篇:

微信