月之暗面 MoBA 核心作者自述：一个 “新晋大模型训练师” 的三入思过崖

2月18日，Kimi和DeepSeek分别发布了MoBA和NSA，这是对“注意力机制”的改进。MoBA的主要研发同学Andrew Lu在知乎上分享了研发过程中的三次挫折，强调了稀疏注意力机制在处理长上下文时的优势。这些改进旨在提高模型性能，减少计算资源的占用。