跳至主内容
研究论文

Attention Is All You Need(但经费也得有):一项回顾

I3E TPAMI· 卷 1 , 期 1 · 页码 58-72 ·
DOI: 10.1234/trashactions.2026.006 已复制!
22 引用量 检查访问权限

编辑摘要

Ttention、Echanism 和 Uery 从一群花了大半个十年写论文来扩展或反驳这篇奠基论文的研究者视角出发,给出了一次成熟的再评估。编辑部指出,该方法全称并没有任何改进,并要求作者修改;作者以“主题契合”为由拒绝。

摘要

我们从后续九年发展的视角,对注意力机制进行回顾性分析,追问原始表述究竟是正确、最优,还是只是最先发出来的那个。我们发现:原始机制大约在 60% 的主张上是正确的;在若干方面并非最优,而这些问题后来已被大约 847 篇后续论文修正;它之所以成功,主要是因为题目 “Attention Is All You Need” 出现在一个本领域正好愿意相信这句话的时间点。我们进一步提出修订版机制:Attention Is Most of What You Need But You Will Also Need Positional Encodings, Layer Normalization, Residual Connections, And Significantly More Compute Than the Original Paper Suggested,并为方便起见缩写为 AIMOWYNBYWANPELNRCSMLMCTOPTPAS。

正文

引言

按引用量计,《Attention Is All You Need》是机器学习史上最有影响力的论文之一。它提出了 transformer 架构,而该架构此后几乎成为所有当代大规模模型的基础。引用它的论文包括:使用 transformer 的论文、提出 transformer 替代方案的论文、解释 transformer 为什么有效的论文、解释 transformer 按理说不该有效但偏偏有效的论文,以及我们在准备本文时发现的一篇研究大黄蜂导航的论文,它也引用了这篇文章,原因至今我们仍未理解。

这篇回顾提出三个问题。第一,注意力机制在原始表述中是否正确?第二,它是否是当时可用的最佳形式?第三,为什么在若干理论质量相近的同时代方案未能成功时,它却成功了?这又告诉我们科学进步在现实中如何发生,与我们在引言部分如何描述它之间存在什么差异?

我们的答案分别是:是、否,以及“品牌包装”。

注意力机制当初是对的吗?

缩放点积注意力的原始形式将输出计算为 value 的加权和,其中权重来自 query 与 key 的点积,并按 key 维度平方根缩放,再通过 softmax 归一化。这是对的。但它并不是唯一正确的形式。后续文献陆续提出了加性注意力、乘性注意力、局部注意力、稀疏注意力、线性注意力,以及大约四十种名字里带有 “efficient” 的变体;其中好几种在可测量意义上并不比原版更高效。

我们比较了原始论文中明确或隐含提出的 15 项具体设计选择与当前共识之间的一致程度。一致率为 61.3%。分歧主要集中在位置编码(原文使用固定正弦方案,如今多被可学习或相对位置编码替代)、归一化位置(原文采用 post-layer normalization;现在 pre-layer normalization 更常见;原因仍未完全弄清),以及若干超参数建议,后续工作已将其下调、上调,或直接替换为“在你的数据集上自己调”。

它为什么会成功?

我们将该论文的呈现方式与七篇质量相近的同时代论文并排做了定性分析。最稳定地区分 transformer 论文与其同侪的因素包括:清晰且易记的标题;首页就出现、能让人一眼看懂架构的图;一种逐项移除组件、使每个组件看起来都不可或缺的消融实验设计;以及投稿时机恰好落在此前 seq2seq 模型成功之后、领域接受度较高的窗口期。

这些因素没有一项属于方法学本身。我们指出这一点并不是为了贬低该工作,它确实真实且重要;而是为了说明,本领域的引用经济不仅奖励正确性,也奖励可读性和时机。理解这一点,有助于解释事后为何有相当一部分工作会被称为“奠基性”。

结论

注意力机制是你所需要的大部分。剩下的部分,我们已经在本文中用一个我们坚持保留的缩写呈现了。

参考文献

  1. Reviewer #2 (2024). “你的论文很烂。” Journal of Rejected Submissions, 1(1), pp. 1-1. https://doi.org/10.0000/rejected.2024.001
  2. Nobody, N. (2023). “这篇我也没读。” Proceedings of Things I Skimmed, 42, pp. 404-404.
  3. Someone, A., et al. (2022). “我们故意没引用的相关工作。” IEEE Trashactions, 1(1), pp. 1-99.
  4. Vaswani, A., et al. (2017). “Attention Is All You Need.” NeurIPS 2017.(被引 147,000 次。我们知道这很讽刺。)
  5. Ttention, A. (2025). “如果你需要,我们这里有引用。” Journal of Proactive Self-Reference, 1(1), pp. 1-1.

作者单位

1. Department of Imaginary Sciences, University of Nowhere

参考文献

电子来信