2月18日,Kimi和DeepSeek分别发布了MoBA和NSA,这是对“注意力机制”的改进。MoBA的主要研发同学Andrew Lu在知乎上分享了研发过程中的三次挫折,强调了稀疏注意力机制在处理长上下文时的优势。这些改进旨在提高模型性能,减少计算资源的占用。
2月18日,Kimi和DeepSeek分别发布了MoBA和NSA,这是对“注意力机制”的改进。MoBA的主要研发同学Andrew Lu在知乎上分享了研发过程中的三次挫折,强调了稀疏注意力机制在处理长上下文时的优势。这些改进旨在提高模型性能,减少计算资源的占用。