"2026년에도 모든 과학 논문이 PDF로만 올라온다는 사실 하나가, 과학 시스템이 AI에 얼마나 못 따라가고 있는지를 다 말해준다."
3월 31일, 와튼스쿨 Ethan Mollick이 X에 올린 한 줄에 1,200명이 좋아요를 눌렀다. 곧장 같은 학계 안에서 답이 나왔다. 예일 SOM의 Paul Goldsmith-Pinkham은 같은 달 "LLM-Friendly Academic Papers: A Proposal"을 공개했고, 핵심은 한 문장으로 요약된다 — "우리는 AI에게 텍스트의 사진(PDF)을 읽으라고 시키고 있다. 정작 원본 의도와 맥락은 우리가 가지고 있으면서".
이게 뭔데?
2026년 기준 arXiv 누적 논문 240만 편, Overleaf 사용자 1,500만 명. 거의 전부 LaTeX로 쓰지만, 외부에 공개될 땐 PDF 한 장으로 바뀐다. PDF는 1993년 인쇄용으로 설계된 형식이다 — 글자가 아니라 "X 좌표·Y 좌표에 놓인 글리프(glyph)"의 집합이다.
여기에 AI 시대의 비용이 붙는다. 영국왕립학회 오픈사이언스 학술지에 2025년 실린 Peters & Chin-Yee 연구는 LLM이 만든 논문 요약이 인간 요약보다 약 5배 더 자주 결론을 과일반화(overgeneralize)한다고 밝혔다. 65세 이하에서 효과가 있는 치료제가 "효과 있는 치료제"로 바뀌는 식이다. 한계 조건이 가장 먼저 떨어져 나간다.
이게 PDF만의 문제가 아니라는 점도 같이 봐야 한다.
- 접근성 자체가 깨져 있다
2024년 Kumar & Wang의 2만 편 PDF 분석에서 74.9%가 시각장애 독자를 위한 어떤 접근성 기준도 충족하지 못했다. 이건 AI 이슈 이전에 인간 이슈다. - 모바일도 깨진다
두 단(column) 레이아웃을 6.1인치 화면으로 옮기면 줄바꿈·캡션이 무너진다. 연구자들도 모바일 PDF를 다 읽지 않는다. - LLM은 픽셀을 읽는다
표(table)는 "데이터"가 아니라 "이미지화된 표"로 들어온다. 회귀계수도, 표준오차도 LLM 입장에선 형태가 비슷한 픽셀일 뿐. - 저자의 판단은 사라진다
"이 결과가 핵심이고 저 결과는 부수적"이라는 저자 의도는 PDF 어디에도 없다. 본문 길이로 추정할 뿐이다.
그럼 PDF 파서를 잘 만들면 되는 거 아닌가?
업계는 이미 거기에 수년을 썼다. 2026년 5월 기준 Firecrawl, Docling(IBM, GitHub 58.6k stars), Marker-PDF(34.4k stars), LlamaParse, Unstructured(14.6k stars), Reducto가 모두 "최고의 PDF 파서" 자리를 두고 경쟁 중이다.
그런데 같은 비교 분석은 두 가지를 동시에 짚는다.
| 파서 유형 | 강점 | 약점 |
|---|---|---|
| Firecrawl /parse (auto/fast/ocr) | 페이지당 400ms 미만, 5배 빠름 | 복잡 표 구조에선 여전히 손실 발생 |
| Docling (IBM) | DoclingDocument 통합 표현, MCP 서버 제공 | 로컬 GPU 필요, 학습된 도메인 외에선 변동 큼 |
| Marker-PDF (--use_llm) | LLM이 표 구조 후처리, 사람 눈에 가장 깔끔 | VLM 환각(hallucination) — 텍스트 밀도 높을수록 위험 |
| 결론적 한계 | 완벽한 파싱이 가능해도 해결 안 되는 게 있다 | 레이아웃 복원과 "저자 의도"는 다른 문제 |
Firecrawl 비교 글이 명시적으로 짚는 결론은 이렇다. 레이아웃 에러는 "한 곳에서 깨지면 그 뒤 모든 추출이 도미노로 망가진다"는 cascading 특성을 갖고, 표 구조는 가장 마지막까지 남는 난제이며, VLM 기반 파서는 텍스트 밀도가 높은 학술 논문에서 환각이 발생할 위험이 가장 크다.
그리고 Goldsmith-Pinkham이 핵심 명제를 던진다 — "완벽한 파싱이 가능해도 해결 안 되는 문제가 있다". 어떤 결과가 핵심인지, 어떤 한계가 가장 결정적인지, "experience"라는 단어가 이 논문에서 직전 1년 고객 수를 의미하는지 경력 연수를 의미하는지는 PDF 픽셀 어디에도 없다. 그건 저자만 안다.
학계가 제시한 해법은 뭔데?
Goldsmith-Pinkham 제안의 핵심은 "PDF는 그대로 두고, 두 개를 더 옆에 놓자"다. 코드 한 줄도 바꾸지 않고 가능하다.
- llms.txt — 저자가 직접 쓰는 안내문
"이 논문이 무엇을 보이고, 무엇을 보이지 않는지"를 마크다운으로 정리한 짧은 파일. 7개 섹션 권장: 무엇에 대한 논문인지 / 중요한 맥락 / 데이터·방법 / 핵심 결과 / 한계와 적용 범위 / 어디부터 읽어야 하는지 / 출판 상태. 가장 중요한 건 한계 — LLM이 가장 잘 떨어뜨리는 정보다. - paper bundle — 논문 + 데이터 + 코드 zip
paper.md(마크다운 본문), figures/, data/(표는 CSV로), code/(reproduce.sh 한 줄로 재현 가능), references.bib. 표를 PNG가 아니라 CSV로 같이 넣는 게 핵심이다. - 점진적 채택(tiered adoption)
arXiv·Overleaf는 LaTeX → md 변환이 이미 가능하므로 "Generate LLM bundle" 버튼 하나면 됨. PDF만 있는 경우엔 GROBID·Docling·Nougat로 변환. 최소 단계는 "llms.txt 한 장만 손으로 써서 PDF 옆에 올리기"인데 15분이면 끝난다. - 왜 저자가 직접 써야 하는가
LLM도 paper.md에서 llms.txt 초안은 만들 수 있다. 단, "어떤 한계가 결정적인가"는 저자만 안다 — 어떤 sample 제약이 진짜 binding constraint인지, 어떤 robustness check가 커리어를 걸 만한지는 픽셀에 없는 정보.
실제로 emollick 글의 댓글 흐름은 같은 방향을 가리킨다. 어떤 연구자는 "RMarkdown으로 쓰면 LaTeX와 마크다운을 동시에 산출할 수 있고, 전환 비용은 거의 0인데 아무도 안 움직인다"고 적는다. 다른 댓글은 "mdarxiv가 존재해야 한다"고 한 줄로 정리한다.
한국 회사 입장에선 뭐가 달라지는데?
"우리는 학자가 아닌데 무슨 상관이냐"가 첫 반응일 수 있다. 그런데 같은 구조가 회사 안 모든 PDF에 그대로 적용된다.
- 1단계: 사내 PDF "원본 옆에 마크다운"을 디폴트로
법무 검토서, IR 자료, 내부 보고서, 분기 실적 PDF 등을 발행할 때 .md 또는 .html 버전을 같이 보관소에 올린다. RAG 파이프라인 정확도가 즉시 올라간다. Goldsmith-Pinkham 제안의 회사용 버전이다. - 2단계: 모든 표는 CSV로 별도 저장
슬라이드·보고서에 표 이미지를 박는 관행을 끊는다. 같은 표를 CSV로 옆에 두면 사내 LLM이 숫자를 비교·검증할 수 있다. - 3단계: 저자 의도(llms.txt)를 1페이지로
긴 보고서 첫 페이지에 "이 보고서가 보이는 것 / 보이지 않는 것 / 가장 중요한 한계 3개"를 마크다운으로 따로 작성. AI가 요약할 때 이걸 먼저 읽게 된다 — 과일반화 5배 위험을 줄이는 가장 싼 방법이다. - 4단계: 외부 발표 자료에도 동일 적용
고객·기자에게 보내는 PDF가 결국 LLM에 들어간다. 보도자료·백서를 마크다운 원본과 함께 배포하면 검색 인덱스·AI 요약 둘 다에서 의도가 더 정확히 전달된다.
핵심만 정리: 시작하는 법
- 1단계: 다음 발행 PDF에 .md 같이 묶기
지금 만들고 있는 보고서·논문·백서 1건만 골라 .md 버전을 같이 산출한다. LaTeX면 pandoc 한 줄, Word면 Pandoc 또는 Markitdown으로 변환. - 2단계: 표를 CSV로 분리
그 보고서의 표 3개를 골라 CSV로 별도 저장. 같은 폴더에 두기만 하면 된다. - 3단계: llms.txt 한 장 쓰기
15분. 7개 섹션 중 "무엇을 보이지 않는가"와 "가장 중요한 한계"만이라도 명확히 적는다. 나머지는 LLM이 초안 작성 가능. - 4단계: 사내 RAG·검색 결과 비교
같은 질문을 PDF만 인덱싱한 상태와 (PDF + md + llms.txt) 인덱싱한 상태에서 던져본다. 답변 정확도·근거 인용 차이가 즉시 보인다. - 5단계: 가이드라인으로 굳히기
효과가 보이면 발행 가이드에 "PDF 단독 발행 금지, 마크다운·CSV 동반 필수" 한 줄을 추가. 학계가 1년 안에 갈 길이라면 회사는 더 빨리 갈 수 있다.




