AIに「このサイト読んで」と頼むとどうなるか、ご存じですか?HTMLタグ、広告スクリプト、ナビゲーションバー、フッター、クッキーバナー……こういったノイズが本文テキストと入り混じって、そのまま全部入ってしまうんです。トークンはトークンで無駄になり、AI回答の品質が下がるのは当然ですよね。

URLの前に一行加えるだけで、この問題が消えます。 r.jina.ai/どんなサイト.com — それだけです。

3秒で要約
任意のURL r.jina.ai/ プレフィックス HTMLノイズ除去 きれいなMarkdown AIにそのまま入力

これは何?

Jina Readerは、ウェブページのURLをLLMがすぐ処理できるクリーンなMarkdownに変換する無料APIです。Jina AIというベルリン拠点のAIインフラ企業が開発し、2024年の公開以降にGitHub Starsが10,300件を超え、開発者コミュニティで急速に普及しています。

使い方が驚くほど簡単なんです。読みたいURLの前にhttps://r.jina.ai/を付けるだけ。会員登録も、APIキーも不要です。ブラウザのアドレスバーにそのまま入力すると、Markdownがすぐ返ってきます。Simon Willison(Djangoの共同創設者)も「Jina AIのプロダクトの中で最もすぐ役立つもの」と評価しています。

技術的には、内部でPuppeteer(ヘッドレスChrome)を動かしてJavaScriptレンダリングが必要なSPAにも対応し、MozillaのReadability.jsでコアコンテンツを抽出、TurndownライブラリでMarkdown変換を行います。さらにJina AIは、ReaderLM-v2という15億パラメータの専用言語モデルも開発しています。これはルールベースではなく、ニューラルネットワークがHTML構造を理解して変換する方式です。29言語に対応し、従来比20%高い精度を実現しています。

Readモードだけではありません。s.jina.ai/検索ワードを使えば、ウェブ検索結果のトップ5をMarkdownで受け取ることもできます。RAGシステムやAIエージェントのウェブグラウンディングにぴったりです。

10.3K
GitHub Stars
無料
基本利用料
29
対応言語数
9.3T
直近30日の処理トークン

何が変わるのか?

AIにウェブコンテンツを渡す既存の方法と比べてみましょう。

手動コピペスクレイピングコードJina Reader
準備時間毎回手動サイトごとのパーサー開発0秒(URLプレフィックスのみ)
HTMLノイズ手動で整理が必要サイトごとのセレクター管理自動除去
JSレンダリング不可Selenium/Puppeteerを別途構築内蔵ヘッドレスChrome
PDF対応別途ツールが必要別途ライブラリが必要URLを渡すだけで処理
画像キャプション不可別途ビジョンモデルの連携が必要自動生成(オプション)
コスト無料インフラコスト無料(基本)

類似サービスとも比べてみましょう。

ツール方式無料ティアライセンス強み
Jina ReaderURLプレフィックス1,000万トークンApache 2.0参入障壁ゼロ、商用利用自由
FirecrawlAPI500クレジットAGPL-3.0大規模クロール、JS自動化
Crawl4AIローカルインストール完全無料Apache 2.0セルフホスティング、LLMチャンキング
DiffbotAPIトライアル商用自動エンティティ分類

まとめるとこうなります。すぐ始めたければJina Reader、大規模クロールが必要ならFirecrawl、完全なコントロールが必要ならCrawl4AIです。Apifyブログの分析によると、月10万ページ基準ではFirecrawlが4〜5倍コスト安になりますが、小規模利用やプロトタイピングではJina Readerが圧倒的に手軽です。

ポイント

Jina Readerの本当の価値は「コードを一行も書かずにAIにきれいなウェブデータを渡せる」という点です。開発者でなくても、ブラウザのアドレスバーにr.jina.ai/を付けるだけで、AI用の入力データを作れます。

始め方のポイント

  1. ブラウザでまずテスト
    アドレスバーにhttps://r.jina.ai/https://github.com/jina-ai/readerと入力してみてください。きれいなMarkdownがすぐ返ってきます。インストールも、サインアップも不要です。
  2. AIチャットで活用する
    ChatGPTやClaudeに「このページを分析して」と頼むとき、URLをそのまま渡す代わりにr.jina.ai/URLの結果を貼り付けてみてください。回答の質がぐっと変わります。
  3. 検索モードを試してみる
    https://s.jina.ai/Jina+Reader+使い方のように検索ワードを入れると、上位5件の全文をMarkdownで取得できます。リサーチ自動化の出発点になります。
  4. APIキーを取得する(任意)
    無料キーを発行すると、レート制限が毎分20回から500回に増え、応答時間も7.9秒から2.5秒に短縮されます。1,000万トークンが無料で提供されるので、テスト後はキーを取得するのがおすすめです。
  5. 自動化に組み込む
    コードで使う場合はcurl https://r.jina.ai/URLの一行で完結します。Python、Node.js、n8nなどの自動化ツールどこからでも、HTTP GETひとつでウェブコンテンツをMarkdownとして取得できます。

注意

サイトによってはボット対策のポリシーにより、Jina Readerがコンテンツを取得できない場合があります。そのときはx-with-proxy: trueヘッダーを追加するか、クッキー転送機能を活用してみてください。