跳至主内容
研究论文

p = 0.049:统计显著,但在实践上与 p = 0.051 几乎一样

I3E TCPS· 卷 1 , 期 1 · 页码 11-22 ·
DOI: 10.I3E/tcps.2026.00178 已复制!
11 引用量 检查访问权限

编辑摘要

编辑部注意到,本文自身关键结果的 p 值分别为 0.047 和 0.043。我们询问通讯作者是否担心,他们说不担心。

摘要

如果 p 值来自被检验效应的真实分布,那么在零假设下,报告 p 值应在 0 到 1 之间近似均匀分布;在真实效应存在时则应右偏。我们分析了从社会与行为科学已发表论文中提取的 6,400 个 p 值,发现 0.050 以下存在显著尖峰、0.050 以上存在对应低谷——这种断裂无法由任何真实效应分布解释,却可以由一个将 0.049 与 0.051 视为类别上完全不同结果的学科生态解释。我们将区间 [0.045, 0.050] 命名为“显著性悬崖(significance cliff)”,并量化其中的超额质量。

正文

引言

0.05 这个数字并不存在于自然界中。它最初由 R.A. Fisher 提出,作为一个方便的非正式参考阈值,而非一条区分真发现与假发现的绝对边界。此后学术共同体却将其当成宇宙基本常数,其地位堪比光速,只是在招聘决策中影响力更大。

这种阈值崇拜的后果,在方法学文献中被充分记录,也在研究文献中被充分忽视。最戏剧性的后果之一就是已发表 p 值的分布:它并未反映真实统计结果的平滑分布,而是在 0.05 以下出现人为聚集。这种模式与显著结果选择性报告、达到显著后停止采样,以及某些直率统计学家称为 “fudging” 的行为一致。

我们给出了迄今规模最大的相关分析,覆盖从 2019 至 2024 年心理学、管理科学与行为经济学 2,100 篇论文中自动解析得到的 6,400 个 p 值。

显著性悬崖

我们将 p 值分布在区间 [0.040, 0.060](以决策阈值 0.050 为中心)定义为“显著性悬崖”。在无偏分布中,该区域应当平滑:0.05 以下略多于以上,反映部分发表效应确实存在。在我们的语料中,该区域并不平滑。

区间 [0.045, 0.050] 与 [0.050, 0.055] 内 p 值数量之比为 4.7:1。若假设仅存在轻微发表偏倚而不存在主动 p 操作,我们的零模型预期该比值为 1.3:1。观测值与预期值之间的差额构成我们所谓的“悬崖超额质量(excess cliff mass)”,对应约 340 个 p 值;考虑到它们离阈值如此接近,这些报告值按理说不该以当前形式出现。

我们还考察了报告 p = 0.049 的论文子样本,这是我们语料中最常见的“显著” p 值(n = 287)。其中 43% 的论文里,该 p 值来自脚注中描述的检验而非方法部分。对此发现我们不作评论。

那些没有被拒绝的零假设

在 6,400 个 p 值中,94.3% 低于 0.05。这不是科学的分布,这是“已发表科学”的分布,而已发表科学本身就是对达到阈值结果的一次筛选。高于 0.05 的 5.7% p 值主要出现在被框定为“空结果(null results)”的论文中。这个类型确实存在,但在文献中被当作一种奇观,类似左撇子螃蟹。

我们使用拟合观测分布的混合模型估计:生成本语料所对应被检验假设中的真实空结果比例应在 31% 至 47% 之间。已发表比例只有 5.7%。这种差异有一个名字:文件抽屉问题(file drawer problem)。而且这个抽屉已经塞得很满。

References

  1. Fisher, R. A. (1925). “研究工作者统计方法。” Oliver & Boyd.(他当年不是这个意思。)
  2. Simonsohn, U., et al. (2014). “p-Curve:打开文件抽屉的一把钥匙。” Journal of Experimental Psychology, 143(2), pp. 534-547.(真论文,问题仍在。)
  3. Barely, B. (2023). “0.049 vs. 0.051:职业结果的实证研究。” 阈值焦虑期刊, 9(1), pp. 1-15.
  4. Hypothesis, N. (2026). “这些结果显著了。勉强显著。” I3E 灾难性 P 值购物汇刊, 1(1), pp. 23-23.

作者单位

1. Threshold Studies Group, Institute for Barely Significant Findings

参考文献

电子来信