让 AI「读一下这个网站」,你知道实际会发生什么吗?HTML 标签、广告脚本、导航栏、页脚、Cookie 提示条……这些垃圾和核心正文混在一起整个塞进去。Token 白白浪费,AI 的回答质量自然也跟着掉。

只要在 URL 前加一行前缀,这个问题就消失了。r.jina.ai/任意网站.com —— 就这么简单。

3秒速览
任意 URL 加 r.jina.ai/ 前缀 移除 HTML 噪声 干净的 Markdown 直接喂给 AI

这是什么?

Jina Reader 是一个免费 API,把网页 URL 转成 LLM 可以直接消化的干净 Markdown。由柏林 AI 基础设施公司 Jina AI 开发,2024 年公开后 GitHub Stars 已突破 10,300,在开发者社区里迅速站稳脚跟。

用法简单到离谱。在想读的 URL 前面加上 https://r.jina.ai/ 就完事。不用注册,不用 API 密钥。直接在浏览器地址栏里输入,Markdown 就出来了。Simon Willison(Django 联合创始人)也评价说这是「Jina AI 产品里最立刻就能用上的一个」。

技术上,它内部跑 Puppeteer(无头 Chrome)来处理需要 JavaScript 渲染的 SPA,用 Mozilla 的 Readability.js 抽取核心内容,再通过 Turndown 库转成 Markdown。在此基础上,Jina AI 还打造了专用语言模型 ReaderLM-v2(15 亿参数),不走规则引擎路线,而是让神经网络理解 HTML 结构并完成转换。它支持 29 种语言,准确率比现有方案高出 20%。

不只是 Read 模式。用 s.jina.ai/搜索词,还能拿到搜索结果 Top 5 的 Markdown,非常适合 RAG 系统和 AI Agent 的网页 grounding。

10.3K
GitHub Stars
免费
基础使用
29 种
支持语言
9.3T
近 30 天处理 Token

有什么不同?

给 AI 喂网页内容,现有几种方法放在一起比比看。

手动复制粘贴自写爬虫Jina Reader
准备时间每次都要手动按站点写解析器0 秒(只加前缀)
HTML 噪声得手动清理要维护站点选择器自动去除
JS 渲染做不到另搭 Selenium/Puppeteer内置无头 Chrome
PDF 支持需要额外工具需要额外库直接塞 URL 就行
图片标注做不到得接视觉模型可选自动生成
成本免费基础设施费用免费(基础版)

再跟几个类似服务对比一下。

工具方式免费额度许可证优势
Jina ReaderURL 前缀1,000 万 TokenApache 2.0零门槛,商用自由
FirecrawlAPI500 CreditsAGPL-3.0大规模爬取,JS 自动化
Crawl4AI本地部署完全免费Apache 2.0自托管,LLM 分块
DiffbotAPI试用版商用授权自动实体分类

简单总结下:想最快上手选 Jina Reader,要大规模爬取选 Firecrawl,需要完全掌控就选 Crawl4AI。根据 Apify 博客的分析,按每月 10 万页计算,Firecrawl 能便宜 4~5 倍;但在小规模使用或原型开发场景下,Jina Reader 的便利性完全碾压。

重点

Jina Reader 真正的价值在于「不写一行代码,就能给 AI 喂上干净的网页数据」。哪怕你不是开发者,只要在浏览器地址栏前面加上 r.jina.ai/,就能造出 AI 的输入数据。

上手指南

  1. 浏览器里直接测一下
    在地址栏输入 https://r.jina.ai/https://github.com/jina-ai/reader,干净的 Markdown 立刻就出来了。不用装任何东西,也不用注册。
  2. 用在 AI 聊天里
    在 ChatGPT 或 Claude 里让它「分析这个页面」时,与其直接给 URL,不如把 r.jina.ai/URL 的结果粘过去。回答质量明显不一样。
  3. 试试搜索模式
    https://s.jina.ai/Jina+Reader+用法 这样输入搜索词,就能拿到前 5 个结果的全文 Markdown。这是研究自动化的起点。
  4. 领个 API 密钥(可选)
    申请免费密钥后,速率限制从每分钟 20 次提升到 500 次,响应时间也从 7.9 秒缩短到 2.5 秒。附赠 1,000 万 Token 免费额度,没什么负担。
  5. 接入自动化流程
    代码里用的时候,curl https://r.jina.ai/URL 一行就够。Python、Node.js、n8n 这些自动化工具里,只要一个 HTTP GET 就能把网页内容变成 Markdown。

注意

有些网站会因反爬策略让 Jina Reader 拿不到内容。这种时候可以加上 x-with-proxy: true 请求头,或者用 Cookie 转发功能试试。