正文
引言
当研究样本量不足以可靠检出其所检验的效应时,这项研究就是“功效不足(underpowered)”的。如果真实效应很小且样本也很小,那么研究通常即便面对真实效应也会得到不显著结果,偶尔还会得到一个其实是假阳性的显著结果。这些后果统计学家都很清楚,但设计研究的人往往并不清楚。本文将这一知识传递断裂直接归因于课程设置。
我们回答一个既简单、结果又令人泄气的问题:定量学科研究生究竟实际接受了多少关于统计功效的教学?为此,我们获取了 11 所大学 14 门研究生方法课程的 syllabus 和授课材料,并按主题编码教学时长。我们还补充访谈了 43 名刚完成这些课程的毕业生。
在被要求不查资料直接定义统计功效时,43 名毕业生中有 37 人(86%)无法给出“落在正确答案一个标准差范围内”的定义。我们承认这个指标本身不太常见,但觉得它很好地捕捉了局面的精神内核。
课程审计
14 门课程中用于统计功效的教学时长范围为 8 至 54 分钟,均值 23 分钟,众数 0 分钟(有 3 门课只是在提到样本量时顺带提了一嘴功效)。作为对照,同样这 14 门课平均为 p 值投入 241 分钟、t 检验 186 分钟、ANOVA 94 分钟。所有课程中教学时长最多的主题是“数据清洗”,平均 312 分钟;其中 11 门课的相当一部分内容实质上是在教大家如何删除离群值直到结果变好看。
功效最常被当作 GPower 软件的一个功能来引入:所有课程都提到了它,但没有任何课程解释它。在 6 门课程中,关于功效分析的全部教学内容只有一句:“用 GPower 吧,免费,自己搜。”在 1 门课里,教师把这个概念称作“beta 那玩意儿”,然后就过去了。
事后功效分析问题
在我们的论文审计中,400 篇论文里有 24 篇(6%)进行了事后(或称 “observed”)功效分析,即在研究结束后用观测到的效应量计算功效。正如 Hoenig 和 Heisey 在 2001 年所指出的,这种分析完全不提供有效信息,有时甚至会主动误导。对于一个不显著结果的事后功效计算,结果必然是低功效,因为观测效应本来就小;这并没有告诉研究者任何他们本来不知道的东西。在 24 篇报告事后功效的论文中,有 23 篇用它来解释为什么自己的不显著结果“仍可能是真实效应”。这在逻辑上是反过来的。
事后功效分析在已发表文献中的持续存在,本身就是课程缺口的证据:研究者在一个无法提供有用信息的情境中,执行了一种他们未被教会如何解释的分析,并用它来支持一个它并不能支持的结论。剩下那 1 篇论文则用事后功效来论证其显著结果“可靠”,这是另一种错误,但同样没有信息量。
参考文献
- Cohen, J. (1962). “异常-社会心理学研究的统计功效:综述。” Journal of Abnormal and Social Psychology, 65(3), pp. 145-153.(真论文。当年没人读;现在情况类似。)
- Hoenig, J., & Heisey, D. (2001). “功效的滥用。” The American Statistician, 55(1), pp. 19-24.(也是真的。也被无视了。)
- G-Power, G. (2024). “我们是软件,不是课程体系。” User Manual, pp. 1-87.
- Hypothesis, N. (2026). “本研究功效不足(N=1)。” I3E Trashactions on Things Nobody Told The Professor, 1(1), pp. 13-13.