ChatGPTに論文のレファレンスを頼むと、実在しない論文を自信満々に引用する。GPT-3.5基準で引用の39〜55%が偽物だGPT-4に上げても18〜29%は依然として捏造。弁護士がAIの作った偽の判例を裁判所に提出して罰金を受けた事例が、2025年7月時点で206件を超えている。「ハルシネーションを減らそう」という話はもう聞き飽きた。むしろ引用できなければ黙らせるツールが登場し始めた。

これは何?

最近Hacker Newsで注目されたGrainulatorは、「引用できなければ答えない」という原則で設計されたオープンソースのリサーチツールだ。質問を投げると、3ステップの調査(investigation)→7ステップのコンパイル(compilation)を経て回答を作る。重要なのは、このプロセスの設計思想にある。

Grainulatorの仕組み
質問入力 → 3-pass調査(多角的な証拠収集)→ 主張(claim)をタイプ別にタグ付け(事実/制約/リスク/推奨/推定)→ 証拠グレード分類(stated/web/documented/tested/production)→ 7-passコンパイラが矛盾検出・バイアススキャン・ギャップ分析 → 信頼スコア(0-100)算出 → 未解決の矛盾があれば回答自体をブロック

Grainulatorが既存のチャットボットと決定的に違う点は、すべての主張(claim)に証拠グレード(evidence tier)を付けることだ。「stated」(ただ言っただけのもの)、「web」(ウェブ検索)、「documented」(文書確認)、「tested」(テスト済み)、「production」(本番環境で検証済み)に分類する。証拠が弱かったり、主張間の矛盾が解決されていなければ、コンパイラが回答の出力をブロックする。

何が変わるのか?

「ハルシネーション対策」というと、たいていRAG(Retrieval-Augmented Generation)を思い浮かべる。検索結果をコンテキストとして渡す方法だ。しかしRAGだけでは不十分だというデータが積み上がってきている。

アプローチ原理限界
基本RAG文書検索 → LLMにコンテキスト提供検索結果が不正確だとハルシネーションがそのまま発生。Stanfordの法律RAGベンチマーク基準で6件に1件が依然として偽の引用
多層検証(INRA等)ソース検索 → コンテキスト注釈 → LLM制約 → リアルタイム検証 → 事後クリーニング → 監査追跡ハルシネーション0.1%以下を達成。ただし学術引用に特化しており汎用性に制限あり
クレームレベル検証(Grainulator、CLATTER)回答を原子的な主張(atomic claim)に分解 → 各主張別に証拠マッチング → 矛盾検出 → 未検証の主張をブロック処理時間が増加(40〜70秒)。ただし構造的に「出典のない発言」が不可能
制約的デコーディング(Constrained Decoding)出力トークン自体を構造化してソースマッピングをコードレベルで強制最も確実だが実装難易度が高い。プロンプトではなく実際のプログラミングが必要

VectaraのハルシネーションリーダーボードHHEMのデータを見ると、最高性能のモデルでも要約タスクで1.8%以上のハルシネーション率を示す。GPT-4oは9.6%、Claude Sonnet 4.6は10.6%だ。これはモデルがどれだけ良くなっても、アーキテクチャレベルの検証なしに0%には到達できないということを意味する。

HNコミュニティの冷静な評価
GrainulatorがHacker Newsで注目を集めたが、コミュニティの反応は両面的だった。「プロンプトベースだから結局AIが何でも言える」「制約的デコーディングを使えばプロンプトなしでもコードレベルでハルシネーションを防げる」という批判があった。デモで1932年の映画Scarfaceの監督を誤答した事例も報告された。ツールの可能性は認めつつ、過信は禁物だ。

始め方のポイント

今すぐAIハルシネーションへの対応レベルを上げたいなら、3つのステップで取り組もう。

  1. 現在のハルシネーション率を測定する
    Vectara HHEMのようなオープンソース評価モデルを使って、自分たちのシステムの実際のハルシネーション率を数値で把握する。「たまに間違えている気がする」から「検証比で7.2%が不一致だ」に変えることが出発点だ。
  2. 回答を原子的な主張に分解する検証レイヤーを追加する
    CLATTERフレームワークのようにAIの回答を個別のファクトに分解し、それぞれに出典をマッチングするパイプラインを組み込む。回答全体単位よりも主張単位での検証のほうが精度がはるかに高い。
  3. エンタープライズならば多層検証を基本とする
    ソース検索 → コンテキスト注釈 → LLM制約 → リアルタイム検証 → 事後クリーニング → 監査追跡の6レイヤー構造が、現在最も実績のあるパターンだ。Avido、INRAなどの専門ツールを評価するか、Google Vertex AI Groundingのようなクラウドネイティブオプションも検討しよう。

さらに深掘りしたい人へ

ハルシネーション検出の技術的な進化

ハルシネーション検出は大きく3世代を経て進化してきた。第1世代はテキストオーバーラップベース(ROUGE、BERTScore)で、表面的な類似度のみを測定していた。第2世代はNLI(自然言語推論)ベースで、文章間の含意関係を判断した(SUMMAC、AlignScore)。現在の第3世代は原子的ファクト分解(atomic fact decomposition)で、回答を最小単位の主張に分解してそれぞれを独立して検証する(MiniCheck、CLATTER、REFIND)

Googleが2024年末に発見した興味深い事実がある。LLMに「今ハルシネーションしてる?」と聞くだけで、後続のハルシネーションが17%減少した。これは問題が「根本的に不可能」なものではなく、「アーキテクチャ設計」の領域であることを示唆している。制約的デコーディング(constrained decoding)のように出力トークン自体を構造化すれば、プロンプトに依存せずにハルシネーションを根本から防ぐことができる。