Multi-Token突破注意力机制瓶颈,Meta发明了一种很新的Transformer

研究提出了一种新的注意力机制——Multi-Token 注意力(MTA),旨在解决标准注意力机制在处理大量上下文时的性能问题。MTA 通过卷积操作和头卷积在多个向量对之间确定注意力集中点,从而在不增加过多参数的情况下提高模型对复杂上下文的理解能力。

实验结果显示,MTA 在标准和长距离依赖任务上表现优于标准多头注意力机制,特别是在玩具任务和大型语言建模任务中,验证了其有效性和优越性。

[原文链接]

上一篇:

下一篇:

微信