跳至主内容
研究论文

把可选停止当持续改进:为“做到有效为止”的实验运行方式辩护

I3E TCPS· 卷 1 , 期 1 · 页码 1-10 ·
DOI: 10.I3E/tcps.2026.00156 已复制!
6 引用量 检查访问权限

编辑摘要

编辑部使用不同随机种子亲自复跑了本文分析。经过 63 次迭代后,我们得到 p = 0.049。我们很满意。

摘要

持续采集数据直到得到统计显著结果这一做法——口语里叫 “p-hacking”,更体面的说法则是“自适应序贯分析”——在方法学文献中被广泛谴责,在其余地方则被广泛实践。我们为该做法提出形式化框架,推导其在零假设下稳定产出 p < 0.05 的条件,并发现平均只需再加约 40 个样本,在 94.7% 的案例中即可达到目标。我们认为这不是 bug,而是 feature,前提是你愿意重新定义 “feature”。

正文

引言

p < 0.05 的统计显著性近一个世纪以来一直是实验科学中的主要发表门槛。在这段时间里,方法学文献大约产出了 40,000 篇论文来解释为什么这是个坏主意,而实践本身几乎没有实质变化。我们采取不同路线:不再反对 p < 0.05,而是研究如何高效获得它。

方法非常直接。每收集一个数据单元,就计算一次 p 值。若 p < 0.05,则停止并写论文;若 p ≥ 0.05,则继续收集数据并重复。该流程被称为“optional stopping(可选停止)”“不做校正的序贯检验”,或者“当基金三个月后到期时所有人都会做的事”。所有人都知道这会抬高假阳性率。我们的工作是精确量化它,并提供第一份显式教程。

AdapTEST 框架

设 $H_0$ 表示零假设。在 $H_0$ 下,我们在每个步长 $t$ 上监控不断增长样本 ${x_1, \ldots, x_t}$ 计算得到的 p 值 $p_t$。AdapTEST 的流程为:每一步若 $p_t < 0.05$,则宣布显著并停止;否则新增一个观测继续。我们推导得到,在 $H_0$ 下,当 $t \to \infty$ 时,最终以“显著结果”停止的概率趋近于 1。

这个结果并不新。许多统计教材里都出现过,而且都把它当作警示故事。我们则将其表述为收敛保证。

我们进一步提出 AdapTEST-Plus,对框架做扩展,允许研究者额外进行:(a) 若原样本“不配合”,则换一个稍有不同的人群继续采样;(b) 事后将那些把 p 值往错误方向推动的观测定义为离群点并删除;(c) 当双尾检验得到 p = 0.06 时,尝试单尾检验。AdapTEST-Plus 在 99.2% 的案例中都能取得目标结果。

实证验证

我们在零假设下的 10,000 次模拟实验中验证 AdapTEST。每次实验设置最大样本量为 500,并运行 optional stopping 流程。结果在 9,470 次实验中得到 p < 0.05(94.7%)。停止时的平均样本量为 41.3 个观测,这提示大多数现实世界效应量都可以在标准 pilot study 预算内“获得”。

随后我们将 AdapTEST 应用于一个真实数据集——一项研究启动效应对任务表现影响的心理学研究。在预注册的 60 名参与者时,结果为 p = 0.21;继续到 89 名参与者后,我们得到 p = 0.031。我们将此报告为对原始效应的复现。

讨论

我们预期本文会引发争议。我们同时注意到,争议与引用数正相关,因此照此推进。核心观点不变:如果该领域坚持把 p < 0.05 作为发表阈值,同时又允许灵活数据采集,那么 AdapTEST 并非方法学违规,而是对非理性激励的理性回应。我们建议改变激励结构。我们也清楚这不会发生。

References

  1. Simmons, J., et al. (2011). “假阳性心理学。” Psychological Science, 22(11), pp. 1359-1366.(真论文,建议阅读。)
  2. Optional, O., & Stopping, S. (2024). “第三个数据集终于成功了。” 灵活分析期刊, 6(1), pp. 1-9.
  3. Threshold, T. (2020). “为什么 p = 0.051 与 p = 0.049 在本体论上完全不同。” Significance Magazine, 17(3), pp. 12-14.
  4. Hypothesis, N. (2026). “我们的结果显著了(在尝试 23 次之后)。” I3E 灾难性 P 值购物汇刊, 1(1), pp. 11-11.

作者单位

1. Statistical Flexibility Laboratory, Center for Desired Outcomes

参考文献

电子来信