月之暗面 MoBA 核心作者自述:一个 “新晋大模型训练师” 的三入思过崖

2月18日,Kimi和DeepSeek分别发布了MoBA和NSA,这是对“注意力机制”的改进。MoBA的主要研发同学Andrew Lu在知乎上分享了研发过程中的三次挫折,强调了稀疏注意力机制在处理长上下文时的优势。这些改进旨在提高模型性能,减少计算资源的占用。

[原文链接]

上一篇:

下一篇:

微信