Kim
i团队提出了一种名为MoBA的新注意力机制,通过将上下文划分为块并使用MoE的top-k门控机制,显著提升了处理长文本的速度,分别在1M和10M文本上提升了6.5倍和16倍,且无需高昂的训练成本。
然而,Kimi的这项研究再次与DeepSeek的NSA机制“撞车”,仅间隔5个小时,两家团队几乎同时发布相关成果。
Kim
i团队提出了一种名为MoBA的新注意力机制,通过将上下文划分为块并使用MoE的top-k门控机制,显著提升了处理长文本的速度,分别在1M和10M文本上提升了6.5倍和16倍,且无需高昂的训练成本。
然而,Kimi的这项研究再次与DeepSeek的NSA机制“撞车”,仅间隔5个小时,两家团队几乎同时发布相关成果。