Vectara Hallucination Leaderboard — LLM 할루시네이션 비율 비교 차트

repository-images.githubusercontent.com

引用できなければ黙る――AIハルシネーションを構造から断つ新しいツール

AI 할루시네이션 방지, Grainulator, 클레임-레벨 검증, Vectara HHEMAI 신뢰성

AI 인용 할루시네이션 방지를 위한 6단계 검증 시스템

Grainulator — Research that compiles (GitHub)

Hacker News 토론: The tool that won't let AI say anything it can't cite

ChatGPTに論文のレファレンスを頼むと、実在しない論文を自信満々に引用する。GPT-3.5基準で引用の39〜55%が偽物だ。GPT-4に上げても18〜29%は依然として捏造。弁護士がAIの作った偽の判例を裁判所に提出して罰金を受けた事例が、2025年7月時点で206件を超えている。「ハルシネーションを減らそう」という話はもう聞き飽きた。むしろ引用できなければ黙らせるツールが登場し始めた。

これは何?

最近Hacker Newsで注目されたGrainulatorは、「引用できなければ答えない」という原則で設計されたオープンソースのリサーチツールだ。質問を投げると、3ステップの調査(investigation)→7ステップのコンパイル(compilation)を経て回答を作る。重要なのは、このプロセスの設計思想にある。

Grainulatorの仕組み

質問入力 → 3-pass調査（多角的な証拠収集）→ 主張(claim)をタイプ別にタグ付け（事実/制約/リスク/推奨/推定）→ 証拠グレード分類（stated/web/documented/tested/production）→ 7-passコンパイラが矛盾検出・バイアススキャン・ギャップ分析 → 信頼スコア（0-100）算出 → 未解決の矛盾があれば回答自体をブロック

Grainulatorが既存のチャットボットと決定的に違う点は、すべての主張(claim)に証拠グレード(evidence tier)を付けることだ。「stated」（ただ言っただけのもの）、「web」（ウェブ検索）、「documented」（文書確認）、「tested」（テスト済み）、「production」（本番環境で検証済み）に分類する。証拠が弱かったり、主張間の矛盾が解決されていなければ、コンパイラが回答の出力をブロックする。

何が変わるのか?

「ハルシネーション対策」というと、たいていRAG（Retrieval-Augmented Generation）を思い浮かべる。検索結果をコンテキストとして渡す方法だ。しかしRAGだけでは不十分だというデータが積み上がってきている。

アプローチ	原理	限界
基本RAG	文書検索 → LLMにコンテキスト提供	検索結果が不正確だとハルシネーションがそのまま発生。Stanfordの法律RAGベンチマーク基準で6件に1件が依然として偽の引用
多層検証（INRA等）	ソース検索 → コンテキスト注釈 → LLM制約 → リアルタイム検証 → 事後クリーニング → 監査追跡	ハルシネーション0.1%以下を達成。ただし学術引用に特化しており汎用性に制限あり
クレームレベル検証（Grainulator、CLATTER）	回答を原子的な主張(atomic claim)に分解 → 各主張別に証拠マッチング → 矛盾検出 → 未検証の主張をブロック	処理時間が増加（40〜70秒）。ただし構造的に「出典のない発言」が不可能
制約的デコーディング（Constrained Decoding）	出力トークン自体を構造化してソースマッピングをコードレベルで強制	最も確実だが実装難易度が高い。プロンプトではなく実際のプログラミングが必要

VectaraのハルシネーションリーダーボードHHEMのデータを見ると、最高性能のモデルでも要約タスクで1.8%以上のハルシネーション率を示す。GPT-4oは9.6%、Claude Sonnet 4.6は10.6%だ。これはモデルがどれだけ良くなっても、アーキテクチャレベルの検証なしに0%には到達できないということを意味する。

HNコミュニティの冷静な評価
GrainulatorがHacker Newsで注目を集めたが、コミュニティの反応は両面的だった。「プロンプトベースだから結局AIが何でも言える」「制約的デコーディングを使えばプロンプトなしでもコードレベルでハルシネーションを防げる」という批判があった。デモで1932年の映画Scarfaceの監督を誤答した事例も報告された。ツールの可能性は認めつつ、過信は禁物だ。

始め方のポイント

今すぐAIハルシネーションへの対応レベルを上げたいなら、3つのステップで取り組もう。

現在のハルシネーション率を測定する
Vectara HHEMのようなオープンソース評価モデルを使って、自分たちのシステムの実際のハルシネーション率を数値で把握する。「たまに間違えている気がする」から「検証比で7.2%が不一致だ」に変えることが出発点だ。
回答を原子的な主張に分解する検証レイヤーを追加する
CLATTERフレームワークのようにAIの回答を個別のファクトに分解し、それぞれに出典をマッチングするパイプラインを組み込む。回答全体単位よりも主張単位での検証のほうが精度がはるかに高い。
エンタープライズならば多層検証を基本とする
ソース検索 → コンテキスト注釈 → LLM制約 → リアルタイム検証 → 事後クリーニング → 監査追跡の6レイヤー構造が、現在最も実績のあるパターンだ。Avido、INRAなどの専門ツールを評価するか、Google Vertex AI Groundingのようなクラウドネイティブオプションも検討しよう。

さらに深掘りしたい人へ

ハルシネーション検出の技術的な進化

ハルシネーション検出は大きく3世代を経て進化してきた。第1世代はテキストオーバーラップベース（ROUGE、BERTScore）で、表面的な類似度のみを測定していた。第2世代はNLI（自然言語推論）ベースで、文章間の含意関係を判断した（SUMMAC、AlignScore）。現在の第3世代は原子的ファクト分解（atomic fact decomposition）で、回答を最小単位の主張に分解してそれぞれを独立して検証する（MiniCheck、CLATTER、REFIND）。

Googleが2024年末に発見した興味深い事実がある。LLMに「今ハルシネーションしてる?」と聞くだけで、後続のハルシネーションが17%減少した。これは問題が「根本的に不可能」なものではなく、「アーキテクチャ設計」の領域であることを示唆している。制約的デコーディング（constrained decoding）のように出力トークン自体を構造化すれば、プロンプトに依存せずにハルシネーションを根本から防ぐことができる。

FAQ

Grainulatorはハルシネーションを完全に防げますか?

完全な防止ではありません。Grainulatorはプロンプトベースのシステムなので、LLMが指示を無視する可能性が残っており、HNのデモでも誤答の事例が報告されています。ただし、証拠グレード分類と矛盾検出によって、従来の方法より構造的に強固な検証を提供します。

RAGを使っていれば追加の検証は不要ですか?

必要です。Stanfordの法律RAGベンチマークでは、よく設計されたRAGシステムでも6件に1件がハルシネーションを示しました。多層検証（ソース検証＋リアルタイム検証＋監査追跡）を追加することで初めて0%に近づけます。

制約的デコーディングが最も確実な方法なのに、なぜみんな使わないのですか?

実装難易度が高いからです。プロンプトエンジニアリングはテキストだけで完結しますが、制約的デコーディングはAPIレベルのプログラミングとトークンデコーディング戦略の設計が必要です。ただし、OpenAIやGoogleが構造化出力（Structured Output）APIを提供し始めており、参入障壁は下がってきています。