华为诺亚方舟实验室发布了一种名为ESA(Efficient Selective Attention)的新算法,该算法通过稀疏化注意力设计突破了大模型在长文本处理中的瓶颈,实现了数倍序列长度的拓展,并在长序列任务中提升了计算性能。
ESA通过低维压缩query和key,有效减少了token选择的计算复杂度,能够在保持模型准确率的同时显著降低计算复杂度,适用于大语言模型的长文本处理。
ESA通过动态选择关键token进行注意力计算,大幅度降低了LLMs在处理长文本时的计算负担,且在性能上与全注意力外推方法相当,甚至在高倍外推场景下优于全注意力算法。