让 AI「读一下这个网站」,你知道实际会发生什么吗?HTML 标签、广告脚本、导航栏、页脚、Cookie 提示条……这些垃圾和核心正文混在一起整个塞进去。Token 白白浪费,AI 的回答质量自然也跟着掉。
只要在 URL 前加一行前缀,这个问题就消失了。r.jina.ai/任意网站.com —— 就这么简单。
这是什么?
Jina Reader 是一个免费 API,把网页 URL 转成 LLM 可以直接消化的干净 Markdown。由柏林 AI 基础设施公司 Jina AI 开发,2024 年公开后 GitHub Stars 已突破 10,300,在开发者社区里迅速站稳脚跟。
用法简单到离谱。在想读的 URL 前面加上 https://r.jina.ai/ 就完事。不用注册,不用 API 密钥。直接在浏览器地址栏里输入,Markdown 就出来了。Simon Willison(Django 联合创始人)也评价说这是「Jina AI 产品里最立刻就能用上的一个」。
技术上,它内部跑 Puppeteer(无头 Chrome)来处理需要 JavaScript 渲染的 SPA,用 Mozilla 的 Readability.js 抽取核心内容,再通过 Turndown 库转成 Markdown。在此基础上,Jina AI 还打造了专用语言模型 ReaderLM-v2(15 亿参数),不走规则引擎路线,而是让神经网络理解 HTML 结构并完成转换。它支持 29 种语言,准确率比现有方案高出 20%。
不只是 Read 模式。用 s.jina.ai/搜索词,还能拿到搜索结果 Top 5 的 Markdown,非常适合 RAG 系统和 AI Agent 的网页 grounding。
有什么不同?
给 AI 喂网页内容,现有几种方法放在一起比比看。
| 手动复制粘贴 | 自写爬虫 | Jina Reader | |
|---|---|---|---|
| 准备时间 | 每次都要手动 | 按站点写解析器 | 0 秒(只加前缀) |
| HTML 噪声 | 得手动清理 | 要维护站点选择器 | 自动去除 |
| JS 渲染 | 做不到 | 另搭 Selenium/Puppeteer | 内置无头 Chrome |
| PDF 支持 | 需要额外工具 | 需要额外库 | 直接塞 URL 就行 |
| 图片标注 | 做不到 | 得接视觉模型 | 可选自动生成 |
| 成本 | 免费 | 基础设施费用 | 免费(基础版) |
再跟几个类似服务对比一下。
| 工具 | 方式 | 免费额度 | 许可证 | 优势 |
|---|---|---|---|---|
| Jina Reader | URL 前缀 | 1,000 万 Token | Apache 2.0 | 零门槛,商用自由 |
| Firecrawl | API | 500 Credits | AGPL-3.0 | 大规模爬取,JS 自动化 |
| Crawl4AI | 本地部署 | 完全免费 | Apache 2.0 | 自托管,LLM 分块 |
| Diffbot | API | 试用版 | 商用授权 | 自动实体分类 |
简单总结下:想最快上手选 Jina Reader,要大规模爬取选 Firecrawl,需要完全掌控就选 Crawl4AI。根据 Apify 博客的分析,按每月 10 万页计算,Firecrawl 能便宜 4~5 倍;但在小规模使用或原型开发场景下,Jina Reader 的便利性完全碾压。
重点
Jina Reader 真正的价值在于「不写一行代码,就能给 AI 喂上干净的网页数据」。哪怕你不是开发者,只要在浏览器地址栏前面加上 r.jina.ai/,就能造出 AI 的输入数据。
上手指南
- 浏览器里直接测一下
在地址栏输入https://r.jina.ai/https://github.com/jina-ai/reader,干净的 Markdown 立刻就出来了。不用装任何东西,也不用注册。 - 用在 AI 聊天里
在 ChatGPT 或 Claude 里让它「分析这个页面」时,与其直接给 URL,不如把r.jina.ai/URL的结果粘过去。回答质量明显不一样。 - 试试搜索模式
像https://s.jina.ai/Jina+Reader+用法这样输入搜索词,就能拿到前 5 个结果的全文 Markdown。这是研究自动化的起点。 - 领个 API 密钥(可选)
申请免费密钥后,速率限制从每分钟 20 次提升到 500 次,响应时间也从 7.9 秒缩短到 2.5 秒。附赠 1,000 万 Token 免费额度,没什么负担。 - 接入自动化流程
代码里用的时候,curl https://r.jina.ai/URL一行就够。Python、Node.js、n8n 这些自动化工具里,只要一个 HTTP GET 就能把网页内容变成 Markdown。
注意
有些网站会因反爬策略让 Jina Reader 拿不到内容。这种时候可以加上 x-with-proxy: true 请求头,或者用 Cookie 转发功能试试。




