"到了2026年,所有科学论文还只能以PDF形式上传——光这一件事,就足以说明科学体系跟AI的节奏差了多远。"
3月31日,沃顿商学院的Ethan Mollick在X上发的这一句话,获得了1200个赞 。学界内部很快给出了回应。耶鲁SOM的Paul Goldsmith-Pinkham同月发布了《LLM-Friendly Academic Papers: A Proposal》,核心可以浓缩成一句话——"我们让AI去读文字的照片(PDF)。可原始意图和上下文,明明就在我们手里。"
这是什么?
截至2026年,arXiv累计论文240万篇,Overleaf用户1500万。这些论文几乎都用LaTeX写,但对外公开时全都变成一份PDF。PDF是1993年为印刷设计的格式——它装的不是文字,而是"放在X坐标·Y坐标上的字形(glyph)集合" 。
到了AI时代,这个代价就显出来了。英国皇家学会开放科学期刊2025年刊登的Peters & Chin-Yee研究指出,LLM生成的论文摘要,过度泛化(overgeneralize)结论的频率约为人类摘要的5倍 。原本只在65岁以下人群有效的疗法,会被概括成"有效的疗法"。前提条件总是最先被丢掉的。
而且这不只是PDF本身的问题,还要看更大一圈。
- 无障碍访问本身就是坏的
2024年Kumar & Wang分析的2万篇PDF中,74.9%连一项面向视障读者的无障碍标准都达不到。这在AI议题之前就已经是"对人不友好"的问题 。 - 移动端也是坏的
双栏(column)布局塞进6.1英寸屏幕,换行和图注全乱。研究者自己也不会在手机上读完PDF。 - LLM读的是像素
表格(table)进入模型时不是"数据"而是"图像化的表"。回归系数也好,标准误也好,在LLM眼里只是形状相似的像素。 - 作者的判断消失了
"这个结果是核心、那个结果是辅助"——作者的这种意图,PDF里完全没有。模型只能靠正文长度去猜。
那把PDF解析器做好不就行了?
业界已经在这上面砸了好几年。截至2026年5月,Firecrawl、Docling(IBM,GitHub 58.6k stars)、Marker-PDF(34.4k stars)、LlamaParse、Unstructured(14.6k stars)、Reducto都在争夺"最佳PDF解析器"的位置 。
但同一份对比分析,同时点出了两件事。
| 解析器类型 | 优势 | 短板 |
|---|---|---|
| Firecrawl /parse(auto/fast/ocr) | 每页低于400ms,快5倍 | 复杂表结构仍有损失 |
| Docling(IBM) | DoclingDocument统一表示,提供MCP服务器 | 需本地GPU,出训练域后波动大 |
| Marker-PDF(--use_llm) | LLM对表结构做后处理,人眼看最干净 | VLM幻觉(hallucination)——文字密度越高越危险 |
| 最终的局限 | 就算解析做到完美,有些问题依然解决不了 | 还原版式,和还原"作者意图",是两回事 |
Firecrawl那篇对比文章明确给出的结论是这样的 。版式错误具有"一处崩、后续抽取像多米诺一样全垮"的级联(cascading)特性;表格结构是最难啃的最后一块骨头;基于VLM的解析器,在文字密度高的学术论文上,产生幻觉的风险最高。
然后Goldsmith-Pinkham抛出了核心命题——"哪怕解析做到完美,有的问题就是解决不了" 。哪个结果是核心、哪个限制最关键、论文里的"experience"指的是过去一年的客户数还是工作年限——这些信息,PDF的像素里一个字也没有。只有作者知道。
那学界给出的解法是什么?
Goldsmith-Pinkham提案的核心是"PDF照旧,在它旁边再放两样东西" 。一行代码都不用改,就能做到。
- llms.txt——作者亲自写的说明文档
用Markdown整理一份短文件,讲清楚"这篇论文证明了什么、没证明什么"。建议7个章节:这是关于什么的论文 / 重要的背景 / 数据·方法 / 核心结果 / 限制和适用范围 / 该从哪儿开始读 / 发表状态。最重要的是限制——这是LLM最容易丢的信息。 - paper bundle——论文 + 数据 + 代码 zip
paper.md(Markdown正文)、figures/、data/(表格用CSV)、code/(一行reproduce.sh就能复现)、references.bib。关键是把表格用CSV而不是PNG装进去。 - 分阶段采用(tiered adoption)
arXiv·Overleaf已经能做LaTeX → md的转换,所以加一个"Generate LLM bundle"按钮就够了。只有PDF的情况下,可以用GROBID·Docling·Nougat来转换。最低门槛只是"手写一份llms.txt放到PDF旁边",15分钟就能搞定。 - 为什么必须作者亲自写
LLM也能基于paper.md生成llms.txt初稿。但"哪个限制是决定性的"只有作者知道——哪个样本约束是真正的binding constraint、哪个稳健性检验值得拿职业生涯赌,这些信息不在像素里。
实际上emollick那条帖子下面的评论也指向同一个方向。一位研究者写道:"用RMarkdown写,LaTeX和Markdown能同时产出,转换成本几乎为零,可就是没人动。"另一条评论一句话总结:"mdarxiv必须存在。"
对中国公司来说,有什么不同?
第一反应可能是"我们又不是学者,关我们什么事"。但同样的结构,完全适用于公司里所有的PDF。
- 第1步:把"原文旁边附Markdown"设成内部默认
发布法务审核书、IR材料、内部报告、季度业绩PDF时,把.md或.html版本一并存到资料库。RAG流水线的准确率立刻就会上来。这就是Goldsmith-Pinkham提案的公司版。 - 第2步:所有表都单独存成CSV
停掉在幻灯片·报告里贴表格图片的习惯。把同一张表用CSV放在旁边,公司内部LLM就能比较和验证数字。 - 第3步:把作者意图(llms.txt)压成1页
在长报告的首页另外用Markdown写下"本报告证明了什么 / 没证明什么 / 最重要的3个限制"。AI做摘要时会先读到它——这是降低5倍过度泛化风险的最便宜方式。 - 第4步:对外发布的材料同样适用
发给客户·记者的PDF,最终也会进LLM。把新闻稿·白皮书连同Markdown原文一起发布,搜索索引和AI摘要这两端,意图都能被更准确地传达。
上手指南
- 第1步:在下一份要发布的PDF里同步打包.md
挑出现在正在做的某一份报告·论文·白皮书,顺便产出.md版本。LaTeX用pandoc一行命令,Word用Pandoc或Markitdown转换。 - 第2步:把表格分离成CSV
从那份报告里挑3张表,单独存成CSV。放在同一文件夹就行。 - 第3步:写一页llms.txt
15分钟。哪怕只在7个章节里把"没证明什么"和"最重要的限制"写清楚也行。其余章节可以让LLM起草。 - 第4步:对比内部RAG·搜索结果
同一个问题,在"只索引PDF"和"PDF + md + llms.txt一起索引"这两种状态下分别问一遍。回答准确度·引用依据的差距立刻能看出来。 - 第5步:固化为指南
看到效果之后,在发布指南里加一句"禁止单独发布PDF,必须附Markdown·CSV"。学界一年内会走的路,公司可以走得更快。
深入了解
Paul Goldsmith-Pinkham — LLM-Friendly Academic Papers: A Proposal llms.txt + paper bundle提案的完整版。包含7章节模板、3层采用路径、arXiv自动化代码仓库 paulgp.substack.com
Firecrawl — The Best PDF Parsers in 2025/2026 Firecrawl·Docling·Marker·LlamaParse·Unstructured·Reducto的对比。用具体案例剖析了版式级联失败·VLM幻觉等失效模式 firecrawl.dev
Ethan Mollick — X 原帖 (2026-03-31) 从"科学体系跟AI差了多远"这一句话开始的讨论。评论里的mdarxiv·RMarkdown提议也值得一并读 x.com/emollick




