PDF parser comparison and limitations for LLM-readability

firecrawl.dev

論文がPDFなのはAIのせいではない — だから科学は遅くなっている

PDF, llms.txt, 학술 출판, RAG, 마크다운 출판ビジネス

Ethan Mollick — 모든 과학 논문이 2026년에도 PDF로만 올라간다

LLM-Friendly Academic Papers: A Proposal — Paul Goldsmith-Pinkham

The Best PDF Parsers in 2025/2026

「2026年になっても、すべての科学論文がPDFでしか公開されていない。この事実一つが、科学システムがAIにいかに追いついていないかを物語っている。」

3月31日、ウォートン・スクールのEthan MollickがXに投稿した一言に、1,200人がいいねを押した。すぐに同じ学術界から答えが返ってきた。イェールSOMのPaul Goldsmith-Pinkhamは同月「LLM-Friendly Academic Papers: A Proposal」を公開し、その核心は一文で要約できる — 「私たちはAIにテキストの写真（PDF）を読ませている。肝心の本来の意図と文脈は、私たちが持っているのに」。

これは何?

2026年時点でarXivの累積論文数は240万本、Overleafのユーザーは1,500万人。ほぼすべてLaTeXで書かれているが、外部に公開されるときはPDF一枚に変換される。PDFは1993年に印刷用として設計されたフォーマットだ — 文字ではなく「X座標・Y座標に配置されたグリフ（glyph）」の集合体である。

AI時代にはそれがコストになる。英国王立学会のオープンサイエンス学術誌に2025年掲載されたPeters & Chin-Yeeの研究では、LLMが作成した論文の要約が、人間の要約と比べて約5倍も頻繁に結論を過度に一般化（overgeneralize）することが明らかになった。65歳以下で効果がある治療薬が「効果がある治療薬」として伝わる。限定条件が最初に抜け落ちるのだ。

これはPDFだけの問題ではないという点も、合わせて見ておく必要がある。

アクセシビリティそのものが壊れている
2024年のKumar & Wangによる2万本のPDF分析では、74.9%が視覚障害のある読者向けのいかなるアクセシビリティ基準も満たしていなかった。これはAIの問題以前に、人間の問題だ。
モバイルでも崩れる
2段組（2カラム）レイアウトを6.1インチの画面に表示すると、改行やキャプションが崩壊する。研究者自身もモバイルでPDFを最後まで読まない。
LLMはピクセルを読む
表（テーブル）は「データ」ではなく「画像化された表」として入力される。回帰係数も標準誤差も、LLMにとっては形が似たピクセルに過ぎない。
著者の判断が消える
「この結果が核心で、あの結果は付随的」という著者の意図は、PDFのどこにも書かれていない。本文の長さから推測するしかない。

では、PDFパーサーをうまく作ればいいんじゃないか?

業界はすでに数年をそこに費やしてきた。2026年5月時点で、Firecrawl・Docling（IBM、GitHub 58.6kスター）・Marker-PDF（34.4kスター）・LlamaParse・Unstructured（14.6kスター）・Reductoがそれぞれ「最高のPDFパーサー」の座を競っている。

しかし同じ比較分析は、二つのことを同時に指摘している。

パーサーの種類	強み	弱み
Firecrawl /parse（auto/fast/ocr）	1ページあたり400ms未満、5倍の速度	複雑な表構造では依然として情報損失が発生
Docling（IBM）	DoclingDocument統合表現、MCPサーバー提供	ローカルGPUが必要、学習済みドメイン外では精度にばらつき
Marker-PDF（--use_llm）	LLMが表構造を後処理、人の目には最もきれい	VLMの幻覚（hallucination） — テキスト密度が高いほどリスク大
根本的な限界	完璧なパースが可能でも解決できないことがある	レイアウトの復元と「著者の意図」は別問題

Firecrawlの比較記事が明示的に指摘する結論はこうだ。レイアウトエラーは「一箇所で崩れると、その後の全抽出がドミノ式に壊れる」というカスケード特性を持ち、表構造は最後まで残る難題であり、VLMベースのパーサーはテキスト密度が高い学術論文で幻覚が発生するリスクが最も高い。

そしてGoldsmith-Pinkhamが核心命題を投げかける — 「完璧なパースが可能でも解決できない問題がある」。どの結果が核心か、どの限界が最も決定的か、「experience」という単語がこの論文において直前1年の顧客数を意味するのか経験年数を意味するのか — これらはPDFのピクセルのどこにもない。それは著者だけが知っていることだ。

学界が示した解決策は?

Goldsmith-Pinkhamの提案の核心は「PDFはそのままにして、二つを隣に置こう」というものだ。コードを一行も変えずに実現できる。

llms.txt — 著者が自ら書く案内文
「この論文が何を示し、何を示していないか」をマークダウンで整理した短いファイル。7つのセクションが推奨される: 何についての論文か / 重要な文脈 / データ・手法 / 核心的な結果 / 限界と適用範囲 / どこから読むべきか / 出版状況。最も重要なのは限界 — LLMが最も失いやすい情報だ。
paper bundle — 論文＋データ＋コードのzip
paper.md（マークダウン本文）、figures/、data/（表はCSVで）、code/（reproduce.sh 一行で再現可能）、references.bib。表をPNGではなくCSVで一緒に入れることが肝心だ。
段階的な採用（tiered adoption）
arXivとOverleafはLaTeX→md変換がすでに可能なので、「Generate LLM bundle」ボタン一つで済む。PDFしかない場合はGROBID・Docling・Nougatで変換する。最小の手順は「llms.txt一枚を手で書いてPDFの隣に置く」だけ — 15分で終わる。
なぜ著者が直接書かなければならないのか
LLMもpaper.mdからllms.txtの草案は作れる。ただし「どの限界が決定的か」は著者だけが知っている — どのサンプル制約が真のbinding constraintか、どのrobustness checkがキャリアを賭けられるほどのものか、これらはピクセルにない情報だ。

実際、emollickの投稿のコメント欄も同じ方向を指している。ある研究者は「RMarkdownで書けばLaTeXとマークダウンを同時に出力できて、移行コストはほぼゼロなのに誰も動かない」と書いている。別のコメントは「mdarxivが存在すべきだ」と一行でまとめている。

企業にとって何が変わるのか?

「私たちは研究者じゃないから関係ない」が最初の反応かもしれない。しかし同じ構造は、社内のすべてのPDFにそのまま当てはまる。

ステップ1: 社内PDFは「原本の隣にマークダウン」をデフォルトに
法務レビュー書・IR資料・社内報告書・四半期業績PDFなどを発行する際、.mdまたは.html版を一緒にリポジトリに保存する。RAGパイプラインの精度がすぐに上がる。Goldsmith-Pinkham提案の企業版だ。
ステップ2: すべての表はCSVで別途保存
スライドや報告書に表の画像を貼り付ける習慣をやめる。同じ表をCSVで隣に置けば、社内LLMが数値を比較・検証できる。
ステップ3: 著者の意図（llms.txt）を1ページで
長い報告書の冒頭に「この報告書が示すもの / 示していないもの / 最も重要な限界3つ」をマークダウンで別途作成する。AIが要約するとき、これを最初に読む — 過度な一般化5倍リスクを下げる最もコストの低い対策だ。
ステップ4: 外部発表資料にも同様に適用
顧客やメディアに送るPDFも、結局LLMに入る。プレスリリース・白書をマークダウン原本と一緒に配布すれば、検索インデックスとAI要約の両方で意図がより正確に伝わる。

始め方のポイント

ステップ1: 次に発行するPDFに.mdを一緒にまとめる
今作成中の報告書・論文・白書から1件を選び、.md版を一緒に出力する。LaTeXならpandoc一行、WordならPandocまたはMarkitdownで変換できる。
ステップ2: 表をCSVに分離する
その報告書の表を3つ選んでCSVで別途保存する。同じフォルダに置くだけでいい。
ステップ3: llms.txt一枚を書く
15分。7つのセクションのうち「何を示していないか」と「最も重要な限界」だけでも明確に書く。残りはLLMが草案作成可能。
ステップ4: 社内RAG・検索結果を比較する
同じ質問を、PDFだけをインデックスした状態と（PDF＋md＋llms.txt）をインデックスした状態で投げてみる。回答の精度・根拠の引用の差がすぐに見える。
ステップ5: ガイドラインとして定着させる
効果が見えたら、発行ガイドに「PDF単独発行禁止、マークダウン・CSV同伴必須」の一行を追加する。学界が1年以内にたどる道なら、企業はさらに速く進める。

さらに深掘りしたい人へ

Paul Goldsmith-Pinkham — LLM-Friendly Academic Papers: A Proposal llms.txt＋paper bundle提案のフルバージョン。7つのセクションテンプレート、3段階の採用ロードマップ、arXiv自動化コードのリポジトリまで含む paulgp.substack.com

Firecrawl — The Best PDF Parsers in 2025/2026 Firecrawl・Docling・Marker・LlamaParse・Unstructured・Reductoの比較。レイアウトのカスケード崩壊・VLMの幻覚など、失敗パターンを具体的な事例で解説 firecrawl.dev

Ethan Mollick — X投稿（2026-03-31） 「科学システムがAIにいかに追いついていないか」の一言から始まった議論。コメント欄のmdarxiv・RMarkdown提案の流れまで合わせて読む価値あり x.com/emollick

よくある質問

arXivにすでにHTML版があるのに、わざわざllms.txtまで必要なのか?

arXiv HTMLはLaTeXMLベースの自動変換なので本文は保持されるが、「著者の意図」は伝えられない。Goldsmith-Pinkhamが強調するのは「どの限界が決定的か」「どのサンプル制約が真のbinding constraintか」といった判断だ。HTML/マークダウンはテキストの保存、llms.txtは意図の保存 — 役割が異なる。両方あってこそ、LLMが過度な一般化をしない。

社内報告書にllms.txtのようなメタデータを付けるというのは、結局ESGレポートの付録みたいなものじゃないか?

そうではない。決定的な違いは「読者 vs 機械」だ。ESGの付録は人間がほぼ読まないが、llms.txtは社内RAGが最初のトークンから読む。検索結果や要約の精度に即時影響する。つまり「人が見ない文書」ではなく「AIが最初に見る文書」だ。限界3つと適用範囲を明確に書くだけでも、社内LLMのhallucination頻度が下がる。

Paul Goldsmith-Pinkhamの提案が学界で受け入れられる可能性はあるか? また別の「死んだ標準」になるだけじゃないか?

前提が二つ異なる。第一に、インフラはすでに存在する — arXivがLaTeXMLパイプラインでLaTeX→HTMLをすでに処理しており、Overleafも1,500万ユーザーのプールがある。第二に、導入単位が小さい — 学会の標準化なしに、著者一人がPDFの隣に.txtファイルを一つ置くだけで済む。llmstxt.orgの標準は1年間で84万以上のサイトが採用した。mdarxivは学会の決議なしにGitHub Pagesから始められる。

今一番人気のPDFパーサーを一つ深掘りすればいいんじゃないか? 何を選べばいいか?

用途が異なるので単一の正解はない。企業向け推奨 — 社内文書の自動RAG: Firecrawl /parse（クラウド、高速）またはDocling（IBM、ローカル対応）。表が重要な報告書: Marker-PDF --use_llmまたはReducto。学術・特許: Marker-PDFがLaTeXの数式保存に最も優れている。ただし三つともカスケードレイアウトエラーを完全には防げない — 「パーサー＋マークダウン原本との併用」の組み合わせが最も安全だ。