ChatGPT에게 논문 레퍼런스를 달라고 하면, 실존하지 않는 논문을 자신 있게 인용한다. GPT-3.5 기준으로 인용의 39~55%가 가짜다. GPT-4로 올려도 18~29%는 여전히 날조. 변호사가 AI가 만든 가짜 판례를 법원에 제출해서 벌금을 문 사례가 2025년 7월 기준 206건이 넘는다. "할루시네이션을 줄이자"는 말은 이제 식상하다. 아예 인용 못 하면 입을 다물게 만드는 도구가 등장하기 시작했다.

이게 뭔데?

최근 Hacker News에서 주목받은 Grainulator는 "인용할 수 없으면 답하지 않는다"는 원칙으로 설계된 오픈소스 리서치 도구다. 질문을 던지면 3단계 조사(investigation) → 7단계 컴파일(compilation)을 거쳐 답을 만든다. 핵심은 이 과정의 설계 철학에 있다.

Grainulator의 작동 원리
질문 입력 → 3-pass 조사 (다각도 증거 수집) → 주장(claim)을 유형별로 태깅 (사실/제약/리스크/추천/추정) → 증거 등급 분류 (진술/웹/문서/테스트/프로덕션) → 7-pass 컴파일러가 모순 탐지·편향 스캔·갭 분석 → 신뢰 점수(0-100) 산출 → 미해결 모순이 있으면 답변 자체를 차단

Grainulator가 기존 챗봇과 결정적으로 다른 지점은, 모든 주장(claim)에 증거 등급(evidence tier)을 붙인다는 것이다. "stated"(그냥 말한 것), "web"(웹 검색), "documented"(문서 확인), "tested"(테스트 완료), "production"(실환경 검증)으로 분류한다. 증거가 약하거나 주장 간 모순이 해결되지 않으면, 컴파일러가 답변 출력을 차단한다.

뭐가 달라지는 건데?

"할루시네이션 방지"라고 하면 대부분 RAG(Retrieval-Augmented Generation)를 떠올린다. 검색 결과를 컨텍스트로 넣어주는 방식. 하지만 RAG만으로는 충분하지 않다는 데이터가 쌓이고 있다.

접근법원리한계
기본 RAG문서 검색 → LLM에 컨텍스트 제공검색 결과가 부정확하면 할루시네이션 그대로 발생. Stanford 법률 RAG 벤치마크 기준 6건 중 1건이 여전히 가짜 인용
다층 검증 (INRA 등)소스 검색 → 맥락 주석 → LLM 제약 → 실시간 검증 → 사후 클리닝 → 감사 추적할루시네이션 0.1% 이하 달성. 그러나 학술 인용에 특화되어 범용성 제한
클레임-레벨 검증 (Grainulator, CLATTER)응답을 원자적 주장(atomic claim)으로 분해 → 각 주장별 증거 매칭 → 모순 탐지 → 미검증 주장 차단처리 시간 증가 (40-70초). 그러나 구조적으로 "출처 없는 말"이 불가능
제약적 디코딩 (Constrained Decoding)출력 토큰 자체를 구조화하여 소스 매핑을 코드 레벨에서 강제가장 확실하지만 구현 난이도 높음. 프롬프트가 아닌 실제 프로그래밍 필요

Vectara의 할루시네이션 리더보드 데이터를 보면, 최고 성능 모델조차 요약 작업에서 1.8% 이상의 할루시네이션 비율을 보인다. GPT-4o는 9.6%, Claude Sonnet 4.6은 10.6%다. 이건 모델 자체가 아무리 좋아져도 아키텍처 레벨의 검증 없이는 0%에 도달할 수 없다는 뜻이다.

HN 커뮤니티의 냉정한 평가
Grainulator가 Hacker News에서 주목받았지만, 커뮤니티의 반응은 양면적이었다. "프롬프트 기반이라 결국 AI가 뭐든 말할 수 있다", "제약적 디코딩을 쓰면 프롬프트 없이도 코드 레벨에서 할루시네이션을 막을 수 있다"는 비판이 있었다. 데모에서 1932년 영화 Scarface 감독을 틀리게 답하는 사례도 보고됐다. 도구의 가능성은 인정하되, 맹신은 금물이다.

핵심만 정리: 시작하는 법

지금 당장 AI 할루시네이션 대응 수준을 올리고 싶다면, 세 단계로 접근하자.

  1. 현재 할루시네이션 비율을 측정하라
    Vectara HHEM 같은 오픈소스 평가 모델을 써서, 우리 시스템의 실제 할루시네이션 비율을 숫자로 잡는다. "가끔 틀리는 것 같다"에서 "검증 대비 7.2%가 불일치한다"로 바꾸는 것이 출발점이다.
  2. 응답을 원자적 주장으로 분해하는 검증 레이어를 추가하라
    CLATTER 프레임워크처럼 AI 응답을 개별 팩트로 쪼개고, 각각에 출처를 매칭하는 파이프라인을 넣는다. 전체 응답 단위보다 주장 단위 검증이 정밀도가 훨씬 높다.
  3. 엔터프라이즈라면 다층 검증을 기본으로 깔아라
    소스 검색 → 컨텍스트 주석 → LLM 제약 → 실시간 검증 → 사후 클리닝 → 감사 추적의 6레이어 구조가 현재 가장 검증된 패턴이다. Avido, INRA 같은 전문 도구를 평가하거나, Google Vertex AI Grounding처럼 클라우드 네이티브 옵션도 검토하라.
할루시네이션 탐지의 기술적 진화

할루시네이션 탐지는 크게 세 세대를 거쳐 진화해왔다. 1세대는 텍스트 오버랩 기반(ROUGE, BERTScore)으로, 표면적 유사도만 측정했다. 2세대는 NLI(자연어 추론) 기반으로, 문장 간 함의 관계를 판단했다(SUMMAC, AlignScore). 현재 3세대는 원자적 팩트 분해(atomic fact decomposition)로, 응답을 최소 단위 주장으로 쪼갠 뒤 각각을 독립 검증한다(MiniCheck, CLATTER, REFIND).

Google이 2024년 말 발견한 흥미로운 사실이 있다. LLM에게 "지금 할루시네이션 하고 있어?"라고 물어보는 것만으로 후속 할루시네이션이 17% 감소했다. 이는 문제가 "근본적 불가능"이 아니라 "아키텍처 설계"의 영역이라는 것을 시사한다. 제약적 디코딩(constrained decoding)처럼 출력 토큰 자체를 구조화하면, 프롬프트에 의존하지 않고도 할루시네이션을 원천 차단할 수 있다.