[快讯] 被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

2015年发布的“End-To-End Memory Networks”论文提出了多层软注意力机制，是首个完全用注意力机制替代RNN的语言模型，对当前大型语言模型的许多要素进行了预见，但因光芒被“Attention is all you need”掩盖而未受足够关注。

论文作者Sainbayar Sukhbaatar分享了该论文的诞生背景及创新点，包括引入位置嵌入解决顺序不变性问题等，并表示即使十年后，该论文仍有其独特价值。

他们近期发布的新论文“Multi-Token Attention”（MTA）在多个查询、键和头上调节注意力，改善了长上下文问题处理能力，展现了持续的技术进步。