跳至主内容
研究论文

自维持引用生态系统的涌现:互引圈的图论分析

I3E TCPR· 卷 1 , 期 1 · 页码 1-13 ·
DOI: 10.I3E/tcpr.2026.00098 已复制!
15 引用量 检查访问权限

编辑摘要

本文由作者的两位同事评审。考虑到选题具有元层面的相关性,编辑部认为安排合理。所有审稿人均建议无修改接收。

摘要

学术引用是学术声誉的货币,而和所有货币一样,它会被动机充分的参与者操纵。我们分析了 2018 至 2025 年间 180,000 篇机器学习论文的引用图,识别出 43 个内部引用流高度集中的强连通分量:由 4–12 名作者组成的群体,其互引频率是领域均值的 8.3 倍,而对圈外工作的引用仅为领域均值的 0.4 倍。这些引用圈成员的平均 h 指数比圈外发表记录相当的作者高 6.4 倍。出于法律原因,我们将这一差异称为“显著”而非“欺诈”。

正文

引言

h 指数最初被设计用于将发表数量与引用数量结合,以衡量研究影响力。若研究者有 h 篇论文且每篇至少被引 h 次,则其 h 指数为 h。它是一个简单、稳健的指标,但存在一个众所周知的缺陷:它衡量的是收到的引用,不是工作的质量;而引用是可以被安排出来的。

最简单的安排方式是自引,即作者无论相关与否都引用自己的过往工作。该做法普遍存在、广为人知,并在“有时确实合理”的理由下被大体容忍。研究更少、也是本文主题的,是协同互引:一组作者通过持续的互相引用共同抬高彼此的引用数,而不考虑圈内任一论文是否真正实质性地回应了其他论文。

我们将这些群体称为“引用圈(citation rings)”,并发现它们比文献此前承认的更常见得多。

网络分析

我们构建了一个有向引用图 $G=(V,E)$,其中 $V$ 为语料中 62,400 名作者集合;若作者 a 的任一论文引用了作者 b 的任一论文,则在 $E$ 中添加一条从 a 指向 b 的有向边。边权定义为此类引用数,并用引用方论文总引用数做归一化。

我们识别图中内部引用密度高于领域均值三个标准差的强连通分量(SCC)。共有 43 个 SCC 满足条件,成员规模从 4 人到 12 人不等。地理分析显示,43 个引用圈中有 31 个主要集中在同一机构,9 个跨两个存在明确合作关系的机构,另有 3 个跨洲分布,但通过同一系列 workshop 连接——值得注意的是,该 workshop 由圈内成员组织,程序委员会中也有圈内成员。

引用圈成员的结果

识别出的圈内作者在研究期内平均发表 8.3 篇论文(圈外可比作者为 7.9 篇),但平均获得 314 次引用,而可比圈外作者仅 49 次。圈内成员平均 h 指数为 11.2,对照组仅 3.7。在 Semantic Scholar 的影响力指标上,圈内作者位于其子领域第 91 百分位;而在对引用数盲处理后由独立评估者打分的质量排序中,他们的工作仅位于第 54 百分位。

讨论

我们将这些发现作为描述性而非规范性结果呈现,主要原因是本文三位共同作者中的三人(是的,全部)在识别出的两个引用圈中以边缘成员身份出现。这一利益冲突我们遵循期刊政策,在第 4 节予以披露,同时没有在任何更醒目的位置披露。我们建议对引用圈进行进一步研究,理想情况下应由圈外研究者开展;而这类研究者的人数比人们希望的要少。

References

  1. Ring, R., et al. (2024). “我们的优秀工作,你应该引用。” 互相欣赏期刊, 3(1), pp. 1-50.
  2. Itation, C. (2023). “自引不是问题(共被引 847 次,且全部来自作者本人)。” 文献计量学今日, 12(2), pp. 1-1.
  3. H-Index, H., & Gaming, G. (2022). “为什么你的 h 指数比我低。” 我正在赢的指标研讨会论文集, pp. 1-8.
  4. Hypothesis, N. (2025). “这篇论文引用了它自己。” I3E 循环同行评审汇刊, 1(1), pp. 14-14.

作者单位

1. Department of Citation Ecology, Institute for Bibliometric Gaming

参考文献

电子来信