在马斯克发布Grok3的同一天,DeepSeek和月之暗面分别发布了挑战Transformer核心注意力机制的论文,提出NSA和MoBA架构,旨在提高处理长文本的效率和速度。
DeepSeek的NSA架构通过语义压缩、动态选择和滑动窗口三个环节,将计算复杂度从O(n²)降至O(n²/k),在处理超长上下文任务时表现出色;而MoBA架构则强调灵活性,结合了FlashAttention和MoE优化手段,适用于更广泛的场景。
两家公司的创始人梁文锋和杨植麟均出现在各自论文的作者名单中,显示了这一技术突破对他们各自公司的重要性。