如果你向 ChatGPT 请求论文参考文献,它会非常自信地引用一些根本不存在的论文。以 GPT-3.5 为例,引用的虚假率高达 39~55%。即便升级到 GPT-4,仍有 18~29% 的内容是捏造的。截至 2025 年 7 月,已有超过 206 起律师因向法院提交 AI 生成的虚假判例而面临罚款的案例。“减少幻觉”这类话听起来已经有些陈词滥调了。现在,一种只要无法引用就直接闭嘴的工具已经开始崭露头角。

这是什么?

最近在 Hacker News 上备受关注的 Grainulator,是一款基于“无法引用则不回答”原则设计的开源研究工具。当你提出问题时,它会经历“3 阶段调查 (investinvestigation) → 7 阶段编译 (compilation)”的过程来生成答案。其核心在于这一过程的设计哲学。

Grainulator 的工作原理
输入问题 → 3-pass 调查(多维度证据收集) → 按类型对主张 (claim) 进行打标签(事实/限制/风险/建议/推测) → 证据等级分类(陈述/网页/文档/测试/生产环境) → 7-pass 编译器进行矛盾检测·偏差扫描·缺口分析 → 计算置信度分数 (0-100) → 若存在未解决的矛盾,则直接拦截回答

Grainulator 与现有聊天机器人最本质的区别在于,它会为每一个主张 (claim) 标注证据等级 (evidence tier)。它将证据分为“stated”(仅口头陈述)、“web”(网页搜索)、“documented”(文档确认)、“tested”(测试完成)和“production”(生产环境验证)。如果证据强度不足或主张之间的矛盾无法解决,编译器就会拦截答案的输出。

有什么不同?

提到“防止幻觉”,大多数人首先会想到 RAG (检索增强生成, Retrieval-Augmented Generation)。这种方式是将搜索结果作为上下文输入给模型。但越来越多的数据表明,仅靠 RAG 是不够的。

方法原理局限性
基础 RAG文档检索 → 为 LLM 提供上下文如果检索结果不准确,幻觉依然会发生。根据斯坦福法律 RAG 基准测试,每 6 篇文献中仍有 1 篇是虚假引用inra
多层验证 (如 INRA)来源检索 → 上下文注释 → LLM 约束 → 实时验证 → 事后清洗 → 审计追踪幻觉率可降至 0.1% 以下inra。但由于专注于学术引用,通用性受限
主张级验证 (Grainulator, CLATTER)将响应分解为原子化主张 (atomic claim) → 为每个主张匹配证据 → 矛盾检测 → 拦截未经证实的观点处理时间增加 (40-70 秒github)。但从结构上杜绝了“无据之谈”
约束解码 (Constrained Decoding)通过结构化输出 Token 本身,在代码层面强制进行来源映射news.ycombinator最可靠但实现难度高。需要实际的编程逻辑,而非仅仅依靠提示词

从 Vectara 的幻觉排行榜数据来看,即使是性能顶尖的模型,在摘要任务中的幻觉率也超过了 1.8%。GPT-4o 为 9.6%,Claude Sonnet 4.6 为 10.6%。这意味着,无论模型本身变得多么强大,如果没有架构层面的验证,幻觉率永远无法达到 0%

Hacker News 社区的冷静评价
虽然 Grainulator 在 Hacker News 上引起了关注,但社区反应是两极分化的news.ycombinator。“因为它基于提示词,最终 AI 还是可能胡说八道”、“如果使用约束解码,即使没有提示词也能在代码层面阻止幻觉”等批评意见不绝于耳。此外,也有演示案例显示其错误回答了 1932 年电影《疤面煞星》的导演。我们可以认可该工具的潜力,但切不可盲目迷信。

上手指南

如果你想立即提升应对 AI 幻觉的水平,可以尝试以下三个步骤:

  1. 首先,测量当前的幻觉率
    使用像 Vectara HHEM 这样的开源评估模型,用数字来量化我们系统的实际幻觉率。将“感觉偶尔会出错”转变为“与验证结果相比,不一致率为 7.2%”,这是改进的起点。
  2. 其次,增加一个将响应分解为原子化主张的验证层
    效仿 CLATTER 框架,建立一个将 AI 响应拆解为单个事实,并为每个事实匹配来源的流水线。相比于对整个响应进行验证,对单个主张进行验证的精度要高得多。
  3. 最后,如果是企业级应用,请将多层验证作为标配
    “来源检索 → 上下文注释 → LLM 约束 → 实时验证 → 事后清洗 → 审计追踪”的六层结构是目前最成熟的模式。可以评估 Avido、INRA 等专业工具,或者考虑 Google Vertex AI Grounding 等云原生方案。

深入了解

幻觉检测的技术演进

幻觉检测经历了三个主要阶段的演进。第一代基于文本重叠度(如 ROUGE, BERTScore),仅测量表面相似性。第二代基于自然语言推理 (NLI),判断句子间的蕴含关系(如 SUMMAC, AlignScore)。目前的第三代则是原子化事实分解 (atomic fact decomposition),即将响应拆解为最小单位的主张,并对每一个主张进行独立验证(如 MiniCheck, CLATTER, REFIND)

Google 在 2024 年底发现了一个有趣的现象:仅仅通过询问 LLM“你现在是否正在产生幻觉?”,后续的幻觉发生率就降低了 17%。这表明问题不在于“根本性的不可能”,而在于“架构设计”的范畴。通过约束解码 (constrained decoding) 等技术,将输出 Token 本身进行结构化,即使不依赖提示词,也能从源头上阻断幻觉。