研究论文

把可选停止当持续改进：为“做到有效为止”的实验运行方式辩护

I3E TCPS· 卷 1 , 期 1 · 页码 1-10 ·2026年1月9日

DOI: 10.I3E/tcps.2026.00156 已复制！

编辑摘要

编辑部使用不同随机种子亲自复跑了本文分析。经过 63 次迭代后，我们得到 p = 0.049。我们很满意。

摘要

持续采集数据直到得到统计显著结果这一做法——口语里叫 “p-hacking”，更体面的说法则是“自适应序贯分析”——在方法学文献中被广泛谴责，在其余地方则被广泛实践。我们为该做法提出形式化框架，推导其在零假设下稳定产出 p < 0.05 的条件，并发现平均只需再加约 40 个样本，在 94.7% 的案例中即可达到目标。我们认为这不是 bug，而是 feature，前提是你愿意重新定义 “feature”。

正文

引言

p < 0.05 的统计显著性近一个世纪以来一直是实验科学中的主要发表门槛。在这段时间里，方法学文献大约产出了 40,000 篇论文来解释为什么这是个坏主意，而实践本身几乎没有实质变化。我们采取不同路线：不再反对 p < 0.05，而是研究如何高效获得它。

方法非常直接。每收集一个数据单元，就计算一次 p 值。若 p < 0.05，则停止并写论文；若 p ≥ 0.05，则继续收集数据并重复。该流程被称为“optional stopping（可选停止）”“不做校正的序贯检验”，或者“当基金三个月后到期时所有人都会做的事”。所有人都知道这会抬高假阳性率。我们的工作是精确量化它，并提供第一份显式教程。

AdapTEST 框架

设 $H_0$ 表示零假设。在 $H_0$ 下，我们在每个步长 $t$ 上监控不断增长样本 ${x_1, \ldots, x_t}$ 计算得到的 p 值 $p_t$。AdapTEST 的流程为：每一步若 $p_t < 0.05$，则宣布显著并停止；否则新增一个观测继续。我们推导得到，在 $H_0$ 下，当 $t \to \infty$ 时，最终以“显著结果”停止的概率趋近于 1。

这个结果并不新。许多统计教材里都出现过，而且都把它当作警示故事。我们则将其表述为收敛保证。

我们进一步提出 AdapTEST-Plus，对框架做扩展，允许研究者额外进行：(a) 若原样本“不配合”，则换一个稍有不同的人群继续采样；(b) 事后将那些把 p 值往错误方向推动的观测定义为离群点并删除；(c) 当双尾检验得到 p = 0.06 时，尝试单尾检验。AdapTEST-Plus 在 99.2% 的案例中都能取得目标结果。

实证验证

我们在零假设下的 10,000 次模拟实验中验证 AdapTEST。每次实验设置最大样本量为 500，并运行 optional stopping 流程。结果在 9,470 次实验中得到 p < 0.05（94.7%）。停止时的平均样本量为 41.3 个观测，这提示大多数现实世界效应量都可以在标准 pilot study 预算内“获得”。

随后我们将 AdapTEST 应用于一个真实数据集——一项研究启动效应对任务表现影响的心理学研究。在预注册的 60 名参与者时，结果为 p = 0.21；继续到 89 名参与者后，我们得到 p = 0.031。我们将此报告为对原始效应的复现。

讨论

我们预期本文会引发争议。我们同时注意到，争议与引用数正相关，因此照此推进。核心观点不变：如果该领域坚持把 p < 0.05 作为发表阈值，同时又允许灵活数据采集，那么 AdapTEST 并非方法学违规，而是对非理性激励的理性回应。我们建议改变激励结构。我们也清楚这不会发生。

References

Simmons, J., et al. (2011). “假阳性心理学。” Psychological Science, 22(11), pp. 1359-1366.（真论文，建议阅读。）
Optional, O., & Stopping, S. (2024). “第三个数据集终于成功了。” 灵活分析期刊, 6(1), pp. 1-9.
Threshold, T. (2020). “为什么 p = 0.051 与 p = 0.049 在本体论上完全不同。” Significance Magazine, 17(3), pp. 12-14.
Hypothesis, N. (2026). “我们的结果显著了（在尝试 23 次之后）。” I3E 灾难性 P 值购物汇刊, 1(1), pp. 11-11.

作者单位

1. Statistical Flexibility Laboratory, Center for Desired Outcomes

参考文献

电子来信

@article{trashactions2026, title={把可选停止当持续改进：为“做到有效为止”的实验运行方式辩护}, author={P. Hacker, S. Ignificant}, journal={I3E TCPS}, volume={1}, number={1}, pages={1-10}, year={2026}, doi={10.I3E/tcps.2026.00156} }

P. Hacker, S. Ignificant (2026). 把可选停止当持续改进：为“做到有效为止”的实验运行方式辩护. I3E TCPS, 1(1), 1-10. https://doi.org/10.I3E/tcps.2026.00156

P. Hacker, S. Ignificant. "把可选停止当持续改进：为“做到有效为止”的实验运行方式辩护." I3E TCPS 1.1 (2026): 1-10.