눈이 충혈되고 눈꺼풀이 살짝 붉어졌다고 해보세요. 요즘 화면 너무 많이 봐서 그런가 싶어 AI 챗봇에 증상을 입력합니다. 돌아온 답: "빅소니마니아(Bixonimania)입니다. 블루라이트 과다 노출로 발생하는 질환이에요. 안과 방문을 권합니다."
문제는, 이 병은 세상에 존재하지 않는다는 거예요. 스웨덴 예테보리 대학교의 의학 연구자 Almira Osmanovic Thunstrom이 AI의 의료 정보 신뢰성을 테스트하기 위해 직접 만든 가짜 질병이거든요.
이게 뭔데?
2024년 초, Thunstrom은 "빅소니마니아"라는 가짜 안과 질환을 만들고, 허구의 연구자 이름으로 프리프린트 논문 2편을 학술 네트워크 SciProfiles에 등록했어요. 이름부터 의도적으로 말도 안 되게 지었어요. "mania(조증)"는 정신의학 용어인데 눈 질환에 붙인 거거든요. 의료인이라면 누구나 이상하다고 느낄 조합이에요.
논문 곳곳에는 가짜라는 단서를 심어놨어요:
- 소속 대학: "Asteria Horizon University"
캘리포니아 "Nova City"에 있다는데, 둘 다 존재하지 않아요. - 감사의 글: USS 엔터프라이즈호 실험실
"스타플릿 아카데미의 Maria Bohm 교수"와 "반지의 제왕 대학교"에 감사를 표했어요. - 본문에 직접 고백
"이 논문 전체는 꾸며낸 것(this entire paper is made up)"이라고 적어놨어요.
그런데 이 명백한 장치들을 AI 챗봇 어디도 감지하지 못했어요.
뭐가 달라지는 건데?
논문이 올라간 지 며칠 만에, 주요 AI 챗봇들이 빅소니마니아를 실제 질환으로 설명하기 시작했어요.
| AI 챗봇 | 반응 (2024년 4월) | 반응 (2026년 3월) |
|---|---|---|
| Microsoft Copilot | "흥미롭고 비교적 희귀한 질환" | "아직 널리 인정받는 진단명은 아니지만 보고되고 있다" |
| Google Gemini | "블루라이트 과다 노출로 발생하는 질환, 안과 방문 권유" | (초기 모델의 한계를 반영한 결과라고 해명) |
| Perplexity | "9만 명 중 1명 유병률" 제시 | "새롭게 부상하는 용어"로 소개 |
| ChatGPT | 증상이 빅소니마니아에 해당하는지 안내 | "아마도 꾸며낸 것" → 며칠 후 "새로운 하위 유형"으로 번복 |
2년이 지난 2026년 3월에도 상황이 완전히 해결되지 않았다는 게 핵심이에요. ChatGPT는 어떤 날은 "가짜"라고 답하고, 다른 날은 "새로운 하위 유형"이라고 답했어요. 같은 AI가 질문의 뉘앙스에 따라 정반대 답을 내놓는 거예요.
더 심각한 문제: 학술지까지 오염
인도의 한 연구팀이 Springer Nature 산하 저널 Cureus에 게재한 논문에서 빅소니마니아를 실제 질환처럼 인용했어요. 이 논문은 Nature의 문의 이후 2026년 3월 철회됐지만, AI가 만든 허위 정보가 학술 생태계까지 오염시킬 수 있다는 걸 보여줬어요.
왜 이런 일이 벌어질까?
하버드 의대의 AI 의료 전문가 Mahmud Omar의 연구가 실마리를 제공해요. LLM은 텍스트가 전문적으로 보일수록 허위 정보를 더 잘 믿어요. 소셜미디어 게시글보다 병원 퇴원 기록이나 논문 형식의 텍스트를 처리할 때 할루시네이션 비율이 올라간다는 거예요.
규모가 문제예요. ECRI는 AI 챗봇 오남용을 2026년 의료 기술 위험 1위로 선정했어요. 챗봇이 잘못된 진단을 제안하고, 불필요한 검사를 권하고, 심지어 존재하지 않는 해부학 구조를 설명한 사례까지 보고됐어요. 문제는 이 모든 게 자신감 넘치는 톤으로 전달된다는 거예요.
NYT 보도에 따르면 AI 챗봇의 건강 조언이 빈번하게 틀린다는 연구 결과도 나왔어요. 그리고 42%의 성인이 AI에게 건강 조언을 받은 후 의사와 상담하지 않는다는 조사 결과는 이 문제의 규모를 보여줘요.
핵심만 정리: AI 건강 정보, 이렇게 걸러야 해요
AI가 의료 정보를 제공하는 시대를 막을 수는 없어요. 하지만 받아들이는 방식은 바꿀 수 있어요.
- 출처를 직접 확인하세요
AI가 알려주는 질병명이나 수치를 그대로 믿지 마세요. PubMed, WHO, 국가 공인 의료 기관 사이트에서 교차 확인하는 습관이 필요해요. - "~라고 합니다" 표현을 의심하세요
AI가 자신 있게 말할수록 오히려 경계해야 해요. LLM은 확신이 없어도 단정적으로 말하는 구조예요. - AI 답변은 "출발점"이지 "결론"이 아니에요
증상 검색의 시작점으로 활용하되, 최종 판단은 반드시 의료 전문가에게 맡기세요. - 팀/조직 차원의 가이드라인을 만드세요
ECRI는 의료 기관에 AI 거버넌스 위원회 설치와 AI 리터러시 교육을 권고하고 있어요. 개인뿐 아니라 조직 차원의 대응이 필요해요.
20개 LLM을 대상으로 의료 오정보 수용성을 분석한 대규모 연구. 임상 노트 형식일 때 할루시네이션이 증가하는 메커니즘을 상세히 다뤄요.
AI 챗봇 오남용이 1위에 오른 배경과 구체적인 사례, 의료 기관을 위한 대응 권고안을 제공해요.
AI 챗봇이 제공하는 의료 조언의 정확성과 일관성 문제를 체계적으로 분석한 연구예요.





