PDF parser comparison and limitations for LLM-readability

firecrawl.dev

论文为什么还停留在PDF —— 这不是AI的错,却让科学跟不上节奏

PDF, llms.txt, 학술 출판, RAG, 마크다운 출판商业

Ethan Mollick — 모든 과학 논문이 2026년에도 PDF로만 올라간다

LLM-Friendly Academic Papers: A Proposal — Paul Goldsmith-Pinkham

The Best PDF Parsers in 2025/2026

"到了2026年,所有科学论文还只能以PDF形式上传——光这一件事,就足以说明科学体系跟AI的节奏差了多远。"

3月31日,沃顿商学院的Ethan Mollick在X上发的这一句话,获得了1200个赞。学界内部很快给出了回应。耶鲁SOM的Paul Goldsmith-Pinkham同月发布了《LLM-Friendly Academic Papers: A Proposal》,核心可以浓缩成一句话——"我们让AI去读文字的照片(PDF)。可原始意图和上下文,明明就在我们手里。"

这是什么?

截至2026年,arXiv累计论文240万篇,Overleaf用户1500万。这些论文几乎都用LaTeX写,但对外公开时全都变成一份PDF。PDF是1993年为印刷设计的格式——它装的不是文字,而是"放在X坐标·Y坐标上的字形(glyph)集合" 。

到了AI时代,这个代价就显出来了。英国皇家学会开放科学期刊2025年刊登的Peters & Chin-Yee研究指出,LLM生成的论文摘要,过度泛化(overgeneralize)结论的频率约为人类摘要的5倍。原本只在65岁以下人群有效的疗法,会被概括成"有效的疗法"。前提条件总是最先被丢掉的。

而且这不只是PDF本身的问题,还要看更大一圈。

无障碍访问本身就是坏的
2024年Kumar & Wang分析的2万篇PDF中,74.9%连一项面向视障读者的无障碍标准都达不到。这在AI议题之前就已经是"对人不友好"的问题。
移动端也是坏的
双栏(column)布局塞进6.1英寸屏幕,换行和图注全乱。研究者自己也不会在手机上读完PDF。
LLM读的是像素
表格(table)进入模型时不是"数据"而是"图像化的表"。回归系数也好,标准误也好,在LLM眼里只是形状相似的像素。
作者的判断消失了
"这个结果是核心、那个结果是辅助"——作者的这种意图,PDF里完全没有。模型只能靠正文长度去猜。

那把PDF解析器做好不就行了?

业界已经在这上面砸了好几年。截至2026年5月,Firecrawl、Docling(IBM,GitHub 58.6k stars)、Marker-PDF(34.4k stars)、LlamaParse、Unstructured(14.6k stars)、Reducto都在争夺"最佳PDF解析器"的位置。

但同一份对比分析,同时点出了两件事。

解析器类型	优势	短板
Firecrawl /parse(auto/fast/ocr)	每页低于400ms,快5倍	复杂表结构仍有损失
Docling(IBM)	DoclingDocument统一表示,提供MCP服务器	需本地GPU,出训练域后波动大
Marker-PDF(--use_llm)	LLM对表结构做后处理,人眼看最干净	VLM幻觉(hallucination)——文字密度越高越危险
最终的局限	就算解析做到完美,有些问题依然解决不了	还原版式,和还原"作者意图",是两回事

Firecrawl那篇对比文章明确给出的结论是这样的。版式错误具有"一处崩、后续抽取像多米诺一样全垮"的级联(cascading)特性;表格结构是最难啃的最后一块骨头;基于VLM的解析器,在文字密度高的学术论文上,产生幻觉的风险最高。

然后Goldsmith-Pinkham抛出了核心命题——"哪怕解析做到完美,有的问题就是解决不了" 。哪个结果是核心、哪个限制最关键、论文里的"experience"指的是过去一年的客户数还是工作年限——这些信息,PDF的像素里一个字也没有。只有作者知道。

那学界给出的解法是什么?

Goldsmith-Pinkham提案的核心是"PDF照旧,在它旁边再放两样东西" 。一行代码都不用改,就能做到。

llms.txt——作者亲自写的说明文档
用Markdown整理一份短文件,讲清楚"这篇论文证明了什么、没证明什么"。建议7个章节:这是关于什么的论文 / 重要的背景 / 数据·方法 / 核心结果 / 限制和适用范围 / 该从哪儿开始读 / 发表状态。最重要的是限制——这是LLM最容易丢的信息。
paper bundle——论文 + 数据 + 代码 zip
paper.md(Markdown正文)、figures/、data/(表格用CSV)、code/(一行reproduce.sh就能复现)、references.bib。关键是把表格用CSV而不是PNG装进去。
分阶段采用(tiered adoption)
arXiv·Overleaf已经能做LaTeX → md的转换,所以加一个"Generate LLM bundle"按钮就够了。只有PDF的情况下,可以用GROBID·Docling·Nougat来转换。最低门槛只是"手写一份llms.txt放到PDF旁边",15分钟就能搞定。
为什么必须作者亲自写
LLM也能基于paper.md生成llms.txt初稿。但"哪个限制是决定性的"只有作者知道——哪个样本约束是真正的binding constraint、哪个稳健性检验值得拿职业生涯赌,这些信息不在像素里。

实际上emollick那条帖子下面的评论也指向同一个方向。一位研究者写道:"用RMarkdown写,LaTeX和Markdown能同时产出,转换成本几乎为零,可就是没人动。"另一条评论一句话总结:"mdarxiv必须存在。"

对中国公司来说,有什么不同?

第一反应可能是"我们又不是学者,关我们什么事"。但同样的结构,完全适用于公司里所有的PDF。

第1步:把"原文旁边附Markdown"设成内部默认
发布法务审核书、IR材料、内部报告、季度业绩PDF时,把.md或.html版本一并存到资料库。RAG流水线的准确率立刻就会上来。这就是Goldsmith-Pinkham提案的公司版。
第2步:所有表都单独存成CSV
停掉在幻灯片·报告里贴表格图片的习惯。把同一张表用CSV放在旁边,公司内部LLM就能比较和验证数字。
第3步:把作者意图(llms.txt)压成1页
在长报告的首页另外用Markdown写下"本报告证明了什么 / 没证明什么 / 最重要的3个限制"。AI做摘要时会先读到它——这是降低5倍过度泛化风险的最便宜方式。
第4步:对外发布的材料同样适用
发给客户·记者的PDF,最终也会进LLM。把新闻稿·白皮书连同Markdown原文一起发布,搜索索引和AI摘要这两端,意图都能被更准确地传达。

上手指南

第1步:在下一份要发布的PDF里同步打包.md
挑出现在正在做的某一份报告·论文·白皮书,顺便产出.md版本。LaTeX用pandoc一行命令,Word用Pandoc或Markitdown转换。
第2步:把表格分离成CSV
从那份报告里挑3张表,单独存成CSV。放在同一文件夹就行。
第3步:写一页llms.txt
15分钟。哪怕只在7个章节里把"没证明什么"和"最重要的限制"写清楚也行。其余章节可以让LLM起草。
第4步:对比内部RAG·搜索结果
同一个问题,在"只索引PDF"和"PDF + md + llms.txt一起索引"这两种状态下分别问一遍。回答准确度·引用依据的差距立刻能看出来。
第5步:固化为指南
看到效果之后,在发布指南里加一句"禁止单独发布PDF,必须附Markdown·CSV"。学界一年内会走的路,公司可以走得更快。

深入了解

Paul Goldsmith-Pinkham — LLM-Friendly Academic Papers: A Proposal llms.txt + paper bundle提案的完整版。包含7章节模板、3层采用路径、arXiv自动化代码仓库 paulgp.substack.com

Firecrawl — The Best PDF Parsers in 2025/2026 Firecrawl·Docling·Marker·LlamaParse·Unstructured·Reducto的对比。用具体案例剖析了版式级联失败·VLM幻觉等失效模式 firecrawl.dev

Ethan Mollick — X 原帖 (2026-03-31) 从"科学体系跟AI差了多远"这一句话开始的讨论。评论里的mdarxiv·RMarkdown提议也值得一并读 x.com/emollick

常见问题

arXiv已经有HTML版本了,真的还需要再做llms.txt吗?

arXiv HTML是基于LaTeXML的自动转换,正文能保下来,但"作者意图"装不进去。Goldsmith-Pinkham强调的是"哪个限制是决定性的""哪个样本约束才是真正的binding constraint"这种判断。HTML/Markdown负责保留文字,llms.txt负责保留意图——分工不同。两个都有,LLM才不会过度泛化。

让公司内部报告也加llms.txt这种元数据,不就是ESG报告附录那一套吗?

不是。决定性的差别是"读者vs机器"。ESG附录人几乎不会去读,但llms.txt会被内部RAG从第一个token就读进去。搜索结果和摘要准确度立刻受影响。换句话说,这不是"没人会看的文件",而是"AI最先看到的文件"。哪怕只是清楚地写下3条限制和适用范围,内部LLM的hallucination频率就会下降。

Paul Goldsmith-Pinkham的提案在学界有可能被接受吗?会不会又是一个胎死腹中的标准?

前提有两个不一样。第一,基础设施已经在了——arXiv已经在用LaTeXML流水线跑LaTeX→HTML,Overleaf也有1500万用户的池子。第二,采用的最小单位很小——不需要学会标准化,作者一个人在PDF旁边放一份.txt文件就能完成。llmstxt.org这个标准一年内就被84万多个站点采用。mdarxiv完全可以不等学会决议,用GitHub Pages起步。

现在最热的PDF解析器,挑一个深耕不就行了吗?该选哪个?

用途不同,没有单一答案。中国公司语境下的推荐——内部文档自动RAG:Firecrawl /parse(云端、快)或Docling(IBM、可本地);表格是核心的报告:Marker-PDF --use_llm或Reducto;学术/专利:Marker-PDF对LaTeX公式的保留最好。不过这三家都没法完全挡住级联式的版式错误——"解析器 + Markdown原文一起发布"这个组合最稳。