研究论文

p = 0.049：统计显著，但在实践上与 p = 0.051 几乎一样

I3E TCPS· 卷 1 , 期 1 · 页码 11-22 ·2026年1月21日

DOI: 10.I3E/tcps.2026.00178 已复制！

编辑摘要

编辑部注意到，本文自身关键结果的 p 值分别为 0.047 和 0.043。我们询问通讯作者是否担心，他们说不担心。

摘要

如果 p 值来自被检验效应的真实分布，那么在零假设下，报告 p 值应在 0 到 1 之间近似均匀分布；在真实效应存在时则应右偏。我们分析了从社会与行为科学已发表论文中提取的 6,400 个 p 值，发现 0.050 以下存在显著尖峰、0.050 以上存在对应低谷——这种断裂无法由任何真实效应分布解释，却可以由一个将 0.049 与 0.051 视为类别上完全不同结果的学科生态解释。我们将区间 [0.045, 0.050] 命名为“显著性悬崖（significance cliff）”，并量化其中的超额质量。

正文

引言

0.05 这个数字并不存在于自然界中。它最初由 R.A. Fisher 提出，作为一个方便的非正式参考阈值，而非一条区分真发现与假发现的绝对边界。此后学术共同体却将其当成宇宙基本常数，其地位堪比光速，只是在招聘决策中影响力更大。

这种阈值崇拜的后果，在方法学文献中被充分记录，也在研究文献中被充分忽视。最戏剧性的后果之一就是已发表 p 值的分布：它并未反映真实统计结果的平滑分布，而是在 0.05 以下出现人为聚集。这种模式与显著结果选择性报告、达到显著后停止采样，以及某些直率统计学家称为 “fudging” 的行为一致。

我们给出了迄今规模最大的相关分析，覆盖从 2019 至 2024 年心理学、管理科学与行为经济学 2,100 篇论文中自动解析得到的 6,400 个 p 值。

显著性悬崖

我们将 p 值分布在区间 [0.040, 0.060]（以决策阈值 0.050 为中心）定义为“显著性悬崖”。在无偏分布中，该区域应当平滑：0.05 以下略多于以上，反映部分发表效应确实存在。在我们的语料中，该区域并不平滑。

区间 [0.045, 0.050] 与 [0.050, 0.055] 内 p 值数量之比为 4.7:1。若假设仅存在轻微发表偏倚而不存在主动 p 操作，我们的零模型预期该比值为 1.3:1。观测值与预期值之间的差额构成我们所谓的“悬崖超额质量（excess cliff mass）”，对应约 340 个 p 值；考虑到它们离阈值如此接近，这些报告值按理说不该以当前形式出现。

我们还考察了报告 p = 0.049 的论文子样本，这是我们语料中最常见的“显著” p 值（n = 287）。其中 43% 的论文里，该 p 值来自脚注中描述的检验而非方法部分。对此发现我们不作评论。

那些没有被拒绝的零假设

在 6,400 个 p 值中，94.3% 低于 0.05。这不是科学的分布，这是“已发表科学”的分布，而已发表科学本身就是对达到阈值结果的一次筛选。高于 0.05 的 5.7% p 值主要出现在被框定为“空结果（null results）”的论文中。这个类型确实存在，但在文献中被当作一种奇观，类似左撇子螃蟹。

我们使用拟合观测分布的混合模型估计：生成本语料所对应被检验假设中的真实空结果比例应在 31% 至 47% 之间。已发表比例只有 5.7%。这种差异有一个名字：文件抽屉问题（file drawer problem）。而且这个抽屉已经塞得很满。

References

Fisher, R. A. (1925). “研究工作者统计方法。” Oliver & Boyd.（他当年不是这个意思。）
Simonsohn, U., et al. (2014). “p-Curve：打开文件抽屉的一把钥匙。” Journal of Experimental Psychology, 143(2), pp. 534-547.（真论文，问题仍在。）
Barely, B. (2023). “0.049 vs. 0.051：职业结果的实证研究。” 阈值焦虑期刊, 9(1), pp. 1-15.
Hypothesis, N. (2026). “这些结果显著了。勉强显著。” I3E 灾难性 P 值购物汇刊, 1(1), pp. 23-23.

作者单位

1. Threshold Studies Group, Institute for Barely Significant Findings

参考文献

电子来信

@article{trashactions2026, title={p = 0.049：统计显著，但在实践上与 p = 0.051 几乎一样}, author={B. Arely, S. Ignificant}, journal={I3E TCPS}, volume={1}, number={1}, pages={11-22}, year={2026}, doi={10.I3E/tcps.2026.00178} }

B. Arely, S. Ignificant (2026). p = 0.049：统计显著，但在实践上与 p = 0.051 几乎一样. I3E TCPS, 1(1), 11-22. https://doi.org/10.I3E/tcps.2026.00178

B. Arely, S. Ignificant. "p = 0.049：统计显著，但在实践上与 p = 0.051 几乎一样." I3E TCPS 1.1 (2026): 11-22.