研究论文

我们在一套专为本文设计的基准上达到了 SOTA

I3E TBE· 卷 1 , 期 1 · 页码 1-9 ·2026年1月10日

DOI: 10.I3E/tbe.2026.00203 已复制！

编辑摘要

编辑部已核实：BenchmarkMax-9000 确由同一批作者在投稿前三周创建。我们认为这是一条建立新行业标准的合理时间线。

摘要

我们提出 OmniModel-X，一种新架构，在本文首次提出的综合评测套件 BenchmarkMax-9000 上取得了 SOTA 结果。OmniModel-X 超过了全部 7 个 baseline 模型；这 7 个模型来自我们的预实验筛选：我们先测试了 23 个 baseline，再报告其中表现对我们最不利程度最低的 7 个。与最强已报告 baseline 相比，我们的方法提升了 3.2 个绝对点。在摘要中我们将其表述为“显著超越以往工作”，在结论中则称为“该领域的重要跃迁”。

正文

引言

SOTA 表现是机器学习论文的核心货币。达到 SOTA 的论文可发表；达不到 SOTA 的论文，要么被归类为方法贡献、分析型工作，要么直接变成拒稿。在这样的激励下，研究者发展出一整套复杂技术，用来稳定地、并且在写论文之前就达成 SOTA，也就不足为奇了。本文代表了这类技术的当前巅峰。

我们提出 OmniModel-X，这是一种“构造上即为 SOTA”的模型。我们的关键贡献包括：(1) 一套新基准 BenchmarkMax-9000，其设计发生在 OmniModel-X 训练完成之后；(2) 一组因“相对较弱”而被精心挑选出的 baseline；以及 (3) 一项消融实验，其中去掉 OmniModel-X 的任何组件都会使性能变差，因为我们持续移除组件直到该结论成立。

BenchmarkMax-9000

BenchmarkMax-9000 包含 4,200 个样本，覆盖七项任务，旨在体现“该领域真实世界挑战的全景广度”。任务选择依据 2025 年 11 月的试点实验，在该阶段我们识别出 OmniModel-X 相较可用 baseline 表现最好的任务。任务选择与模型优势之间的相关性纯属巧合，而且要证明不是巧合将非常困难。

样本来自公开来源，采用我们称为“严格”的流程进行质量筛选（两位作者独立复审一个 50 样本随机子集，其中对 6 个样本意见不一致，我们通过删除这 6 个样本解决分歧）。人类表现通过让两名实验室成员各完成 100 个样本来评估。我们将人类表现作为上限报告；我们没有报告的是，我们的模型在七项任务中的三项上超过了该上限。

Baseline 选择

我们将 OmniModel-X 与来自近期文献的 7 个 baseline 对比。初始实验共考虑 23 个候选 baseline。排除标准包括：(1) 评估时模型未公开，适用于 11 个模型；(2) 评估代码与我们的基础设施不兼容，适用于 4 个模型；(3) 在我们的实验设置下结果不可复现，适用于 1 个恰好表现好于 OmniModel-X 的模型。剩余 7 个 baseline 列于表 1。

结果

OmniModel-X 在 BenchmarkMax-9000 上取得 SOTA，定义方式为：它击败了我们选定的全部 7 个 baseline。相对最强 baseline 的提升为 3.2 个绝对点（78.1 vs. 74.9）。我们在摘要里称这一提升为“dramatic”，在结果部分称之为“meaningful”；而一位审阅早期草稿的统计学家将其评价为“考虑到你们样本量，这仍处在实验方差范围内”。我们对该意见的回应方式是：将该统计学家移出致谢名单。

References

Baseline, W., et al. (2024). “一个相当不错但我们没拿来比较的模型。” 我们错过的模型论文集, 1, pp. 1-12.
Exaggeration, B. (2023). “绝对提升 vs 相对提升：如何选择更大的那个数。” 框架效应期刊, 7(1), pp. 99-108.
Benchmark, D., & Designer, B. (2025). “我的基准，我的规则。” 评测实践研讨会（尤其是对我有利的那种）, pp. 1-4.
Hypothesis, N. (2026). “我们试图复现它，但基准并未公开。” I3E 虚构机构可复现性问题汇刊, 1(1), pp. 1-3.

作者单位

1. Laboratory for Self-Congratulatory Evaluation, Institute of Convenient Baselines

参考文献

电子来信

@article{trashactions2026, title={我们在一套专为本文设计的基准上达到了 SOTA}, author={S. O. Taworthy, B. Enchmark-Designer}, journal={I3E TBE}, volume={1}, number={1}, pages={1-9}, year={2026}, doi={10.I3E/tbe.2026.00203} }

S. O. Taworthy, B. Enchmark-Designer (2026). 我们在一套专为本文设计的基准上达到了 SOTA. I3E TBE, 1(1), 1-9. https://doi.org/10.I3E/tbe.2026.00203

S. O. Taworthy, B. Enchmark-Designer. "我们在一套专为本文设计的基准上达到了 SOTA." I3E TBE 1.1 (2026): 1-9.