Kimi新论文再次“撞车”DeepSeek,都谈到了长文注意力机制

Kim

i团队提出了一种名为MoBA的新注意力机制,通过将上下文划分为块并使用MoE的top-k门控机制,显著提升了处理长文本的速度,分别在1M和10M文本上提升了6.5倍和16倍,且无需高昂的训练成本。

然而,Kimi的这项研究再次与DeepSeek的NSA机制“撞车”,仅间隔5个小时,两家团队几乎同时发布相关成果。

[原文链接]

上一篇:

下一篇:

微信