跳至主内容
研究论文

我们在一套专为本文设计的基准上达到了 SOTA

I3E TBE· 卷 1 , 期 1 · 页码 1-9 ·
DOI: 10.I3E/tbe.2026.00203 已复制!
12 引用量 检查访问权限

编辑摘要

编辑部已核实:BenchmarkMax-9000 确由同一批作者在投稿前三周创建。我们认为这是一条建立新行业标准的合理时间线。

摘要

我们提出 OmniModel-X,一种新架构,在本文首次提出的综合评测套件 BenchmarkMax-9000 上取得了 SOTA 结果。OmniModel-X 超过了全部 7 个 baseline 模型;这 7 个模型来自我们的预实验筛选:我们先测试了 23 个 baseline,再报告其中表现对我们最不利程度最低的 7 个。与最强已报告 baseline 相比,我们的方法提升了 3.2 个绝对点。在摘要中我们将其表述为“显著超越以往工作”,在结论中则称为“该领域的重要跃迁”。

正文

引言

SOTA 表现是机器学习论文的核心货币。达到 SOTA 的论文可发表;达不到 SOTA 的论文,要么被归类为方法贡献、分析型工作,要么直接变成拒稿。在这样的激励下,研究者发展出一整套复杂技术,用来稳定地、并且在写论文之前就达成 SOTA,也就不足为奇了。本文代表了这类技术的当前巅峰。

我们提出 OmniModel-X,这是一种“构造上即为 SOTA”的模型。我们的关键贡献包括:(1) 一套新基准 BenchmarkMax-9000,其设计发生在 OmniModel-X 训练完成之后;(2) 一组因“相对较弱”而被精心挑选出的 baseline;以及 (3) 一项消融实验,其中去掉 OmniModel-X 的任何组件都会使性能变差,因为我们持续移除组件直到该结论成立。

BenchmarkMax-9000

BenchmarkMax-9000 包含 4,200 个样本,覆盖七项任务,旨在体现“该领域真实世界挑战的全景广度”。任务选择依据 2025 年 11 月的试点实验,在该阶段我们识别出 OmniModel-X 相较可用 baseline 表现最好的任务。任务选择与模型优势之间的相关性纯属巧合,而且要证明不是巧合将非常困难。

样本来自公开来源,采用我们称为“严格”的流程进行质量筛选(两位作者独立复审一个 50 样本随机子集,其中对 6 个样本意见不一致,我们通过删除这 6 个样本解决分歧)。人类表现通过让两名实验室成员各完成 100 个样本来评估。我们将人类表现作为上限报告;我们没有报告的是,我们的模型在七项任务中的三项上超过了该上限。

Baseline 选择

我们将 OmniModel-X 与来自近期文献的 7 个 baseline 对比。初始实验共考虑 23 个候选 baseline。排除标准包括:(1) 评估时模型未公开,适用于 11 个模型;(2) 评估代码与我们的基础设施不兼容,适用于 4 个模型;(3) 在我们的实验设置下结果不可复现,适用于 1 个恰好表现好于 OmniModel-X 的模型。剩余 7 个 baseline 列于表 1。

结果

OmniModel-X 在 BenchmarkMax-9000 上取得 SOTA,定义方式为:它击败了我们选定的全部 7 个 baseline。相对最强 baseline 的提升为 3.2 个绝对点(78.1 vs. 74.9)。我们在摘要里称这一提升为“dramatic”,在结果部分称之为“meaningful”;而一位审阅早期草稿的统计学家将其评价为“考虑到你们样本量,这仍处在实验方差范围内”。我们对该意见的回应方式是:将该统计学家移出致谢名单。

References

  1. Baseline, W., et al. (2024). “一个相当不错但我们没拿来比较的模型。” 我们错过的模型论文集, 1, pp. 1-12.
  2. Exaggeration, B. (2023). “绝对提升 vs 相对提升:如何选择更大的那个数。” 框架效应期刊, 7(1), pp. 99-108.
  3. Benchmark, D., & Designer, B. (2025). “我的基准,我的规则。” 评测实践研讨会(尤其是对我有利的那种), pp. 1-4.
  4. Hypothesis, N. (2026). “我们试图复现它,但基准并未公开。” I3E 虚构机构可复现性问题汇刊, 1(1), pp. 1-3.

作者单位

1. Laboratory for Self-Congratulatory Evaluation, Institute of Convenient Baselines

参考文献

电子来信