正文
引言
SOTA 表现是机器学习论文的核心货币。达到 SOTA 的论文可发表;达不到 SOTA 的论文,要么被归类为方法贡献、分析型工作,要么直接变成拒稿。在这样的激励下,研究者发展出一整套复杂技术,用来稳定地、并且在写论文之前就达成 SOTA,也就不足为奇了。本文代表了这类技术的当前巅峰。
我们提出 OmniModel-X,这是一种“构造上即为 SOTA”的模型。我们的关键贡献包括:(1) 一套新基准 BenchmarkMax-9000,其设计发生在 OmniModel-X 训练完成之后;(2) 一组因“相对较弱”而被精心挑选出的 baseline;以及 (3) 一项消融实验,其中去掉 OmniModel-X 的任何组件都会使性能变差,因为我们持续移除组件直到该结论成立。
BenchmarkMax-9000
BenchmarkMax-9000 包含 4,200 个样本,覆盖七项任务,旨在体现“该领域真实世界挑战的全景广度”。任务选择依据 2025 年 11 月的试点实验,在该阶段我们识别出 OmniModel-X 相较可用 baseline 表现最好的任务。任务选择与模型优势之间的相关性纯属巧合,而且要证明不是巧合将非常困难。
样本来自公开来源,采用我们称为“严格”的流程进行质量筛选(两位作者独立复审一个 50 样本随机子集,其中对 6 个样本意见不一致,我们通过删除这 6 个样本解决分歧)。人类表现通过让两名实验室成员各完成 100 个样本来评估。我们将人类表现作为上限报告;我们没有报告的是,我们的模型在七项任务中的三项上超过了该上限。
Baseline 选择
我们将 OmniModel-X 与来自近期文献的 7 个 baseline 对比。初始实验共考虑 23 个候选 baseline。排除标准包括:(1) 评估时模型未公开,适用于 11 个模型;(2) 评估代码与我们的基础设施不兼容,适用于 4 个模型;(3) 在我们的实验设置下结果不可复现,适用于 1 个恰好表现好于 OmniModel-X 的模型。剩余 7 个 baseline 列于表 1。
结果
OmniModel-X 在 BenchmarkMax-9000 上取得 SOTA,定义方式为:它击败了我们选定的全部 7 个 baseline。相对最强 baseline 的提升为 3.2 个绝对点(78.1 vs. 74.9)。我们在摘要里称这一提升为“dramatic”,在结果部分称之为“meaningful”;而一位审阅早期草稿的统计学家将其评价为“考虑到你们样本量,这仍处在实验方差范围内”。我们对该意见的回应方式是:将该统计学家移出致谢名单。
References
- Baseline, W., et al. (2024). “一个相当不错但我们没拿来比较的模型。” 我们错过的模型论文集, 1, pp. 1-12.
- Exaggeration, B. (2023). “绝对提升 vs 相对提升:如何选择更大的那个数。” 框架效应期刊, 7(1), pp. 99-108.
- Benchmark, D., & Designer, B. (2025). “我的基准,我的规则。” 评测实践研讨会(尤其是对我有利的那种), pp. 1-4.
- Hypothesis, N. (2026). “我们试图复现它,但基准并未公开。” I3E 虚构机构可复现性问题汇刊, 1(1), pp. 1-3.