2015年发布的“End-To-End Memory Networks”论文提出了多层软注意力机制,是首个完全用注意力机制替代RNN的语言模型,对当前大型语言模型的许多要素进行了预见,但因光芒被“Attention is all you need”掩盖而未受足够关注。
论文作者Sainbayar Sukhbaatar分享了该论文的诞生背景及创新点,包括引入位置嵌入解决顺序不变性问题等,并表示即使十年后,该论文仍有其独特价值。
他们近期发布的新论文“Multi-Token Attention”(MTA)在多个查询、键和头上调节注意力,改善了长上下文问题处理能力,展现了持续的技术进步。