被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作

2015年发布的“End-To-End Memory Networks”论文提出了多层软注意力机制,是首个完全用注意力机制替代RNN的语言模型,对当前大型语言模型的许多要素进行了预见,但因光芒被“Attention is all you need”掩盖而未受足够关注。

论文作者Sainbayar Sukhbaatar分享了该论文的诞生背景及创新点,包括引入位置嵌入解决顺序不变性问题等,并表示即使十年后,该论文仍有其独特价值。

他们近期发布的新论文“Multi-Token Attention”(MTA)在多个查询、键和头上调节注意力,改善了长上下文问题处理能力,展现了持续的技术进步。

[原文链接]

上一篇:

下一篇:

微信