正文
引言
h 指数最初被设计用于将发表数量与引用数量结合,以衡量研究影响力。若研究者有 h 篇论文且每篇至少被引 h 次,则其 h 指数为 h。它是一个简单、稳健的指标,但存在一个众所周知的缺陷:它衡量的是收到的引用,不是工作的质量;而引用是可以被安排出来的。
最简单的安排方式是自引,即作者无论相关与否都引用自己的过往工作。该做法普遍存在、广为人知,并在“有时确实合理”的理由下被大体容忍。研究更少、也是本文主题的,是协同互引:一组作者通过持续的互相引用共同抬高彼此的引用数,而不考虑圈内任一论文是否真正实质性地回应了其他论文。
我们将这些群体称为“引用圈(citation rings)”,并发现它们比文献此前承认的更常见得多。
网络分析
我们构建了一个有向引用图 $G=(V,E)$,其中 $V$ 为语料中 62,400 名作者集合;若作者 a 的任一论文引用了作者 b 的任一论文,则在 $E$ 中添加一条从 a 指向 b 的有向边。边权定义为此类引用数,并用引用方论文总引用数做归一化。
我们识别图中内部引用密度高于领域均值三个标准差的强连通分量(SCC)。共有 43 个 SCC 满足条件,成员规模从 4 人到 12 人不等。地理分析显示,43 个引用圈中有 31 个主要集中在同一机构,9 个跨两个存在明确合作关系的机构,另有 3 个跨洲分布,但通过同一系列 workshop 连接——值得注意的是,该 workshop 由圈内成员组织,程序委员会中也有圈内成员。
引用圈成员的结果
识别出的圈内作者在研究期内平均发表 8.3 篇论文(圈外可比作者为 7.9 篇),但平均获得 314 次引用,而可比圈外作者仅 49 次。圈内成员平均 h 指数为 11.2,对照组仅 3.7。在 Semantic Scholar 的影响力指标上,圈内作者位于其子领域第 91 百分位;而在对引用数盲处理后由独立评估者打分的质量排序中,他们的工作仅位于第 54 百分位。
讨论
我们将这些发现作为描述性而非规范性结果呈现,主要原因是本文三位共同作者中的三人(是的,全部)在识别出的两个引用圈中以边缘成员身份出现。这一利益冲突我们遵循期刊政策,在第 4 节予以披露,同时没有在任何更醒目的位置披露。我们建议对引用圈进行进一步研究,理想情况下应由圈外研究者开展;而这类研究者的人数比人们希望的要少。
References
- Ring, R., et al. (2024). “我们的优秀工作,你应该引用。” 互相欣赏期刊, 3(1), pp. 1-50.
- Itation, C. (2023). “自引不是问题(共被引 847 次,且全部来自作者本人)。” 文献计量学今日, 12(2), pp. 1-1.
- H-Index, H., & Gaming, G. (2022). “为什么你的 h 指数比我低。” 我正在赢的指标研讨会论文集, pp. 1-8.
- Hypothesis, N. (2025). “这篇论文引用了它自己。” I3E 循环同行评审汇刊, 1(1), pp. 14-14.