正文
引言
学术摘要处在一个奇特的修辞位置。它必须同时做到准确——忠实呈现论文发现——以及有吸引力——说服读者花时间读完整篇论文。现实中,“有吸引力”的要求已大幅压倒“准确”的要求,最终形成一种文学体裁:谦逊成了职业负担,措辞保守则被视为野心不足。
本文系统研究摘要膨胀。我们将其定义为:摘要主张强度与结果部分证据支持强度之间的比值,并用一套编码方案在 2,100 篇近期计算机科学论文上进行标注。我们发现膨胀无处不在、持续升级,而且——这是一个我们自己也不太会解释的结果——在高排名机构论文中更为集中。
需要说明的是,本文摘要本身就是为了在我们的膨胀指数上取得高分而写。本文所有定量主张均以结果部分为准,而结果部分采用我们称为“勉强诚实”的文体。
ClaimAudit 框架
ClaimAudit 分两阶段工作。第一阶段,主张抽取模块识别摘要中的评价性主张:关于新颖性(“首次”)、规模(“综合性”)、影响(“范式转换”)和性能(“SOTA”)的断言。每条主张会被分配到五级强度等级之一,从“保守观察”(1 级)到“改变文明的发现”(5 级)。第二阶段,结果匹配模块在正文中定位对应证据,并用同样的五级尺度评估真实支持强度。
论文的膨胀指数定义为:摘要主张强度均值与结果证据强度均值的比值。1.0 表示主张校准良好;高于 1.0 表示存在膨胀。我们语料中观测到的最大值为 11.3,来自一篇在摘要中用 “solves” 描述 NP-hard 问题的论文。
结果
在 2,100 篇论文中,平均膨胀指数为 4.7(SD = 1.8)。摘要中膨胀最严重的部分是“新颖性主张”:声称自己“首次”完成某项工作的论文中,61% 确实是首次完成“那个非常具体的版本”;28% 是首次完成一个高度相关但不完全相同的版本;11% 则在有意义的层面上并不算首次。我们没有报告其中多少“首次”主张前面只做过一次 10 秒钟的 Google Scholar 搜索,因为我们没测,而且也不确定自己想知道。
膨胀指数与机构排名正相关(r = 0.41, p < 0.001),与论文长度负相关(r = -0.23, p < 0.001),与论文最终是否被撤稿无显著相关(r = 0.08, p = 0.19)。不过我们注意到,后者可能反映的是撤稿基线率过低,而非两者真的无关。
讨论
我们认为,摘要膨胀是对一种激励环境的理性回应:摘要会被读,论文不会。如果摘要才是产品,那么产品就会被营销。至于这是否算一种解决方案,我们并不确定。
References
- Hype, H., et al. (2024). “前所未有时代的前所未有结果。” 前所未有主张期刊, 1(1), pp. 1-1.
- Modesty, M. (2019). “对一个小问题的 modest 贡献。” * understatement 论文集*, 3, pp. 200-214.(总共 3 次引用;但论文是对的。)
- Inflation, I., & Important, I. (2023). “为什么我们每篇摘要都要说 14 次‘novel’。” 科学修辞, 8(4), pp. 78-91.
- Hypothesis, N. (2026). “本摘要已校准。” I3E 公然夸大汇刊, 1(1), pp. 21-21.