跳至主内容
综述

LLM 幻觉分类法:并附本文内嵌示例

I3E TPAMI· 卷 1 , 期 1 · 页码 13-24 ·
DOI: 10.1234/trashactions.2026.002 已复制!
12 引用量 检查访问权限

编辑摘要

Allucination 和 Onfabulation 提出了一套让编辑部既感到很有启发、又感到高度自指的分类框架。我们核查了论文 22 条引用中的 3 条,确认它们是准确的。其余 19 条我们没查。我们向所有曾经相信过 LLM 生成文献综述的读者推荐本文。

摘要

众所周知,大语言模型会生成语气自信、表达流畅但事实错误的文本。我们提出一套包含 23 种不同幻觉类型的综合分类法,并沿三个维度组织:可信度、离谱程度,以及这种编造在多大程度上能骗过本应更懂的资深研究者。我们的分类法基于系统性文献回顾;在这一过程中,我们发现原计划引用的文献里有 4 篇根本不存在、3 篇虽然存在但内容与我们的说法不同,还有 1 篇是我们自己写过且后来撤回的论文。我们提出,幻觉不是 bug,而是一种设计哲学,并建议研究共同体公开承认这一点。

正文

引言

在大语言模型语境下,“幻觉”指任何偏离事实准确性、却仍保留自信断言之句法与语用标记的生成文本。大约从 2018 年起,学界一直把幻觉当作需要解决的问题。值得注意的是,这个问题至今没解决,而且已有多位研究者暗示它可能还在变得更糟。本文采取不同视角:我们不再把幻觉仅仅当作失败来列举,而是将其视为一种值得系统描述的丰富现象,就像真菌学家给蘑菇分类并不意味着他必须吃掉它们。

我们提出 23 种幻觉类型的分类法。该分类法来自对 10,000 条模型输出的定性分析;我们采用一套迭代开发的编码方案,不断调整,直到恰好得到 23 个类别。之所以选 23,是因为它比以往分类法(通常只有 5 到 12 类)更大,但又不至于大到让人怀疑我们根本没有筛选。

分类体系

我们将这 23 类归入五个家族。

家族 1:书目幻觉。 模型会生成对不存在论文的引用、对确实存在但内容不同论文的引用、对“确实有这句话但不是这个作者写的”论文的引用,以及对研究者自己论文的“轻微变体版”引用。我们的相关工作部分包含这四种子类型的示例;出于示范目的我们保留了它们,并在我们发现问题的地方加了脚注。

家族 2:数值幻觉。 模型会生成精确、内部一致、但没有任何明确来源的统计量、百分比和 p 值。我们观察到,以 7 或 3 结尾的数字在幻觉统计中出现频率异常高,这暗示模型已经学会了“整数看起来更像编的”。在我们分析的样本中,以 7 或 3 结尾的幻觉数字占比达到 73%,事后看来这个结果本身也很可疑。

家族 3:权威幻觉。 模型会把某些立场归给具名研究者、机构或监管组织,而这些主体实际上从未持有该立场。子类型包括引语伪造(编一句话再署名)、立场反转(把完全相反的观点安到对方头上),以及尤其有意思的“共识伪造”:在真实文献高度分裂的领域里,模型却描述出一个并不存在的科学共识。

家族 4:时间幻觉。 模型会混淆日期、颠倒事件顺序,把已经发生的事说成未来事件,或者把尚未发生的事说成历史事实。我们注意到,本文有三段就包含时间幻觉;这些问题是在修订时发现的,我们决定作为“内嵌示例”保留下来。

家族 5:自指幻觉。 这是在哲学上最有趣的一类。模型会错误描述自己的能力、限制、训练数据和架构。一个典型子类型是我们称为“自信免责声明”的现象:模型一边声称自己无法访问实时信息,一边又顺口描述上周发生的事件。

讨论

这套分类法的含义重大、繁多,而且很难直接落地。我们建议未来工作把重点放在检测而非预防上,理由是预防目前进展并不理想。我们还建议,人们阅读所有 LLM 输出时都应采取一种阅读“自信本科生论文”的心态:关注整体论证,对具体事实保持怀疑,并默默接受核查工作终究得自己做。

结论

我们提出了一套包含 23 种 LLM 幻觉类型的分类法。本文引用中有 4 条是幻觉。我们没有说是哪 4 条。

参考文献

  1. Reviewer #2 (2024). “你的论文很烂。” Journal of Rejected Submissions, 1(1), pp. 1-1. https://doi.org/10.0000/rejected.2024.001
  2. Nobody, N. (2023). “这篇我也没读。” Proceedings of Things I Skimmed, 42, pp. 404-404.
  3. Someone, A., et al. (2022). “我们故意没引用的相关工作。” IEEE Trashactions, 1(1), pp. 1-99.
  4. Allucination, H. (2021). “伪造输出的初步分类法。” Retracted,原载于 Journal of Confident Errors, 3(2), pp. 88-101.
  5. Onfabulation, C., & Allucination, H. (2023). “这里面有任何东西是真的吗?” Philosophical Transactions of Dubious Inquiries, 7, pp. 1-47.

作者单位

1. Department of Imaginary Sciences, University of Nowhere

参考文献

电子来信