正文
引言
p < 0.05 的统计显著性近一个世纪以来一直是实验科学中的主要发表门槛。在这段时间里,方法学文献大约产出了 40,000 篇论文来解释为什么这是个坏主意,而实践本身几乎没有实质变化。我们采取不同路线:不再反对 p < 0.05,而是研究如何高效获得它。
方法非常直接。每收集一个数据单元,就计算一次 p 值。若 p < 0.05,则停止并写论文;若 p ≥ 0.05,则继续收集数据并重复。该流程被称为“optional stopping(可选停止)”“不做校正的序贯检验”,或者“当基金三个月后到期时所有人都会做的事”。所有人都知道这会抬高假阳性率。我们的工作是精确量化它,并提供第一份显式教程。
AdapTEST 框架
设 $H_0$ 表示零假设。在 $H_0$ 下,我们在每个步长 $t$ 上监控不断增长样本 ${x_1, \ldots, x_t}$ 计算得到的 p 值 $p_t$。AdapTEST 的流程为:每一步若 $p_t < 0.05$,则宣布显著并停止;否则新增一个观测继续。我们推导得到,在 $H_0$ 下,当 $t \to \infty$ 时,最终以“显著结果”停止的概率趋近于 1。
这个结果并不新。许多统计教材里都出现过,而且都把它当作警示故事。我们则将其表述为收敛保证。
我们进一步提出 AdapTEST-Plus,对框架做扩展,允许研究者额外进行:(a) 若原样本“不配合”,则换一个稍有不同的人群继续采样;(b) 事后将那些把 p 值往错误方向推动的观测定义为离群点并删除;(c) 当双尾检验得到 p = 0.06 时,尝试单尾检验。AdapTEST-Plus 在 99.2% 的案例中都能取得目标结果。
实证验证
我们在零假设下的 10,000 次模拟实验中验证 AdapTEST。每次实验设置最大样本量为 500,并运行 optional stopping 流程。结果在 9,470 次实验中得到 p < 0.05(94.7%)。停止时的平均样本量为 41.3 个观测,这提示大多数现实世界效应量都可以在标准 pilot study 预算内“获得”。
随后我们将 AdapTEST 应用于一个真实数据集——一项研究启动效应对任务表现影响的心理学研究。在预注册的 60 名参与者时,结果为 p = 0.21;继续到 89 名参与者后,我们得到 p = 0.031。我们将此报告为对原始效应的复现。
讨论
我们预期本文会引发争议。我们同时注意到,争议与引用数正相关,因此照此推进。核心观点不变:如果该领域坚持把 p < 0.05 作为发表阈值,同时又允许灵活数据采集,那么 AdapTEST 并非方法学违规,而是对非理性激励的理性回应。我们建议改变激励结构。我们也清楚这不会发生。
References
- Simmons, J., et al. (2011). “假阳性心理学。” Psychological Science, 22(11), pp. 1359-1366.(真论文,建议阅读。)
- Optional, O., & Stopping, S. (2024). “第三个数据集终于成功了。” 灵活分析期刊, 6(1), pp. 1-9.
- Threshold, T. (2020). “为什么 p = 0.051 与 p = 0.049 在本体论上完全不同。” Significance Magazine, 17(3), pp. 12-14.
- Hypothesis, N. (2026). “我们的结果显著了(在尝试 23 次之后)。” I3E 灾难性 P 值购物汇刊, 1(1), pp. 11-11.