Vectara Hallucination Leaderboard — LLM 할루시네이션 비율 비교 차트

repository-images.githubusercontent.com

如果 AI 无法提供引用，那就干脆闭嘴：一种全新的防幻觉工具

AI幻觉防止、Grainulator、声明级验证、Vectara HHEM商业

AI 인용 할루시네이션 방지를 위한 6단계 검증 시스템

Grainulator — Research that compiles (GitHub)

Hacker News 토론: The tool that won't let AI say anything it can't cite

如果你向 ChatGPT 请求论文参考文献，它会非常自信地引用一些根本不存在的论文。以 GPT-3.5 为例，引用的虚假率高达 39~55%。即便升级到 GPT-4，仍有 18~29% 的内容是捏造的。截至 2025 年 7 月，已有超过 206 起律师因向法院提交 AI 生成的虚假判例而面临罚款的案例。“减少幻觉”这类话听起来已经有些陈词滥调了。现在，一种只要无法引用就直接闭嘴的工具已经开始崭露头角。

这是什么?

最近在 Hacker News 上备受关注的 Grainulator，是一款基于“无法引用则不回答”原则设计的开源研究工具。当你提出问题时，它会经历“3 阶段调查 (investinvestigation) → 7 阶段编译 (compilation)”的过程来生成答案。其核心在于这一过程的设计哲学。

Grainulator 的工作原理

输入问题 → 3-pass 调查（多维度证据收集） → 按类型对主张 (claim) 进行打标签（事实/限制/风险/建议/推测） → 证据等级分类（陈述/网页/文档/测试/生产环境） → 7-pass 编译器进行矛盾检测·偏差扫描·缺口分析 → 计算置信度分数 (0-100) → 若存在未解决的矛盾，则直接拦截回答

Grainulator 与现有聊天机器人最本质的区别在于，它会为每一个主张 (claim) 标注证据等级 (evidence tier)。它将证据分为“stated”（仅口头陈述）、“web”（网页搜索）、“documented”（文档确认）、“tested”（测试完成）和“production”（生产环境验证）。如果证据强度不足或主张之间的矛盾无法解决，编译器就会拦截答案的输出。

有什么不同?

提到“防止幻觉”，大多数人首先会想到 RAG (检索增强生成, Retrieval-Augmented Generation)。这种方式是将搜索结果作为上下文输入给模型。但越来越多的数据表明，仅靠 RAG 是不够的。

方法	原理	局限性
基础 RAG	文档检索 → 为 LLM 提供上下文	如果检索结果不准确，幻觉依然会发生。根据斯坦福法律 RAG 基准测试，每 6 篇文献中仍有 1 篇是虚假引用inra
多层验证 (如 INRA)	来源检索 → 上下文注释 → LLM 约束 → 实时验证 → 事后清洗 → 审计追踪	幻觉率可降至 0.1% 以下inra。但由于专注于学术引用，通用性受限
主张级验证 (Grainulator, CLATTER)	将响应分解为原子化主张 (atomic claim) → 为每个主张匹配证据 → 矛盾检测 → 拦截未经证实的观点	处理时间增加 (40-70 秒github)。但从结构上杜绝了“无据之谈”
约束解码 (Constrained Decoding)	通过结构化输出 Token 本身，在代码层面强制进行来源映射news.ycombinator	最可靠但实现难度高。需要实际的编程逻辑，而非仅仅依靠提示词

从 Vectara 的幻觉排行榜数据来看，即使是性能顶尖的模型，在摘要任务中的幻觉率也超过了 1.8%。GPT-4o 为 9.6%，Claude Sonnet 4.6 为 10.6%。这意味着，无论模型本身变得多么强大，如果没有架构层面的验证，幻觉率永远无法达到 0%。

Hacker News 社区的冷静评价
虽然 Grainulator 在 Hacker News 上引起了关注，但社区反应是两极分化的news.ycombinator。“因为它基于提示词，最终 AI 还是可能胡说八道”、“如果使用约束解码，即使没有提示词也能在代码层面阻止幻觉”等批评意见不绝于耳。此外，也有演示案例显示其错误回答了 1932 年电影《疤面煞星》的导演。我们可以认可该工具的潜力，但切不可盲目迷信。

上手指南

如果你想立即提升应对 AI 幻觉的水平，可以尝试以下三个步骤：

首先，测量当前的幻觉率
使用像 Vectara HHEM 这样的开源评估模型，用数字来量化我们系统的实际幻觉率。将“感觉偶尔会出错”转变为“与验证结果相比，不一致率为 7.2%”，这是改进的起点。
其次，增加一个将响应分解为原子化主张的验证层
效仿 CLATTER 框架，建立一个将 AI 响应拆解为单个事实，并为每个事实匹配来源的流水线。相比于对整个响应进行验证，对单个主张进行验证的精度要高得多。
最后，如果是企业级应用，请将多层验证作为标配
“来源检索 → 上下文注释 → LLM 约束 → 实时验证 → 事后清洗 → 审计追踪”的六层结构是目前最成熟的模式。可以评估 Avido、INRA 等专业工具，或者考虑 Google Vertex AI Grounding 等云原生方案。

深入了解

幻觉检测的技术演进

幻觉检测经历了三个主要阶段的演进。第一代基于文本重叠度（如 ROUGE, BERTScore），仅测量表面相似性。第二代基于自然语言推理 (NLI)，判断句子间的蕴含关系（如 SUMMAC, AlignScore）。目前的第三代则是原子化事实分解 (atomic fact decomposition)，即将响应拆解为最小单位的主张，并对每一个主张进行独立验证（如 MiniCheck, CLATTER, REFIND）。

Google 在 2024 年底发现了一个有趣的现象：仅仅通过询问 LLM“你现在是否正在产生幻觉？”，后续的幻觉发生率就降低了 17%。这表明问题不在于“根本性的不可能”，而在于“架构设计”的范畴。通过约束解码 (constrained decoding) 等技术，将输出 Token 本身进行结构化，即使不依赖提示词，也能从源头上阻断幻觉。