曾主导撼动Transformer统治地位的Mamba核心作者之一Tri Dao提出两种专为推理优化的注意力机制——Grouped-Tied Attention(GTA)和Grouped Latent Attention(GLA),在保持模型性能不变的情况下,解码速度和吞吐量最高提升2倍。
实验结果显示,GTA在中大型模型上优于GQA,GLA在多数场景下与MLA相当,且在处理长上下文时,GLA的解码速度比FlashMLA快2倍,验证了其在提高推理效率和硬件资源利用率方面的有效性。
这项研究由普林斯顿大学的研究者完成,提出的新机制有望显著提升大语言模型的推理效率,尤其在长上下文场景中优势更为突出。