datocms-assets.com

オープンソースAIがGPTより安くなった — Basetanが5ヶ月で$5B→$13Bになった理由

AI推論コスト、Baseten、オープンソースAIモデル、推論レイヤー、AIインフラ投資ビジネス

AI inference startup Baseten reportedly raising $1.5B months after its last mega-round

Baseten $1.5B Raise and the AI Inference Gold Rush

하이퍼스케일러 투자 경쟁 본격화 — AI 인프라 투자 1조 달러 시대

たった5ヶ月でバリュエーションが$5B → $13Bへ。GPTやClaudeを作る会社ではありません。モデルを動かすインフラを売るスタートアップです。

BasetanのAIコスト急成長は偶然ではありません。AIのコスト構造において、まだ多くのチームが気づいていない転換が起きているんです。

30秒まとめ

OpenAI直結 → 推論コスト急増 → オープンソース成熟 → 推論レイヤー台頭 → 最大30%削減

モデルが良くなるほど、運ぶコストが戦場になる

AIへの投資はずっとモデル開発に集中してきました。OpenAI、Anthropic、xAIに巨額の資金が流れ込みました。でも、あまり知られていない事実があります。

AIの総コストの80〜90%は推論から発生します

モデルの訓練コストは、AI運用コスト全体の10〜20%にすぎません。残りの80〜90%は、モデルを実際に動かす推論(inference)から発生します。ユーザーがクエリを送るたびにコストが発生する仕組みです。

2023年、推論がAIコンピューティングに占める割合は全体の1/3でした。2026年には2/3を超えました。AIが実際のサービスで大規模に使われ始めたからです。同時に、AI推論コストは2023年以降、トークンあたり$20から$0.07へ急落しました。問題は、多くのチームがいまだにOpenAIやAnthropicなどのクローズドAPIに直結したまま、より高い費用を払い続けていることです。

オープンソースモデルの品質が急速に向上しています。Llama 3.3、Mistral、Qwenなどのモデルが多くのベンチマークでGPT-4レベルに近づき、オープンソースへルーティングすることでコストを最大30〜50%削減できる状況になりました。しかし、これを自前で実装しようとすると、20のクラウド、数十のモデル、自動ルーティングロジックが必要で、エンジニアリングコストが膨大です。

それがまさにBasetanが狙った隙間です。

5ヶ月で売上3倍 — Basetanは実際に何をしてくれる？

BasetanはGPUを所有していません。代わりに18のクラウドプロバイダーの87のグローバルクラスターを接続し、推論リクエストを最もコスト効率の高いルートへ振り分けます。「AIインフラのオーケストレーター」です。

$200M→$600M

ARR、たった1四半期で3倍

1,900%

前年比売上成長率

10億件以上

1日あたりの推論リクエスト処理数

顧客にはCursor（AIコーディングエディタ）、Notion、Mercorがいます。その中でOpenEvidenceは、世界中の数十万人の医師にAIで医療情報をリアルタイムに提供するスタートアップですが、Basetanへの移行で具体的な成果が出ました。

78%

レイテンシ削減（700ms → 160ms）

デプロイ速度向上

8x+

インフラ管理負担の削減

「Basetanでは、すべてがちゃんと動くんですよ。インフラの複雑さが消えました。」
— Zachary Ziegler、OpenEvidence共同創業者 & CTO

コスト削減だけでなく、エンジニアリングの負担まで吸収してくれます。Basetanの売上は前年比1,900%成長し、2025年の推論ボリュームは40倍に増えました。

	クローズドAPI直結	推論レイヤー経由
モデル選択	1プロバイダーに依存	20以上のクラウド、OSS含む
トークンコスト	固定価格	最大50%以上削減可能
レイテンシ最適化	プロバイダー任せ	マルチクラウド自動ルーティング
デプロイ速度	数時間〜数日	1時間以内（OpenEvidenceの実績）
ベンダーロックイン	高い	低い

自分のチームのAIコスト、どこで漏れているか確認する方法

Basetanを使う予定がなくても、この市場が伝えていることは明確です。AIをプロダクションで運用しているチームは、今すぐ推論コスト構造を点検すべきです。

AIトークンコストのレビュー
過去3ヶ月のOpenAI/Anthropicの請求書を出して、どのモデルにいくら使っているか確認しましょう。ほとんどのチームで、コストの70〜80%が2〜3種類のAPIコールに集中しています。
タスク別のモデルティア分類
すべての作業にGPT-4やClaude Opusが必要なわけではありません。単純な分類、要約、埋め込みはOSSの小型モデルで十分なことが多いです。タスク種別ごとに必要な性能閾値を把握しましょう。
OSSの代替品の品質テスト
Together AI、Modal Labs、Basetanはすべて無料のテスト環境を提供しています。現在のAPIと同じタスクをLlama 3.3やMistralで実行して結果を比べてみましょう。
コスト・品質のトレードオフ計算
品質が同等なら、年間どれだけ節約できるか計算しましょう。月のAIコストが$500以上なら、推論レイヤー導入はROI的に合理的です。
段階的な移行開始
システム全体を一度に変えないでください。コスト比重が大きく、性能要件が低いAPIコール1〜2種類からOSSへの移行を始めましょう。品質指標を監視しながら範囲を広げていきましょう。

OSSが常に正解ではありません

医療・金融・法務などの規制産業、マルチモーダル機能、最先端の推論性能が必要な場合はクローズドAPIが依然として優位です。コスト削減のために品質を犠牲にしないでください。必ず実際の業務で品質を検証してから移行しましょう。

🔗

더 깊이 파고 싶다면

Announcing Baseten's Series F

$1.5B調達の公式発表 — 売上20倍、推論ボリューム40倍成長の数字を含む。

OpenEvidence Case Study

レイテンシ78%削減・6倍速デプロイを達成した医療AIスタートアップの実践事例。

AI Inference vs Training Infrastructure: Why the Economics Are Diverging

推論vs訓練インフラの経済学の違いを数字で詳しく分析。

Baseten Revenue & Funding Analysis

Sacraによる独立した定量分析 — バリュエーション倍率と成長軌跡の比較。

Baseten Nears $1.5B Raise, Tripling in Five Months

投資ラウンド構造と競合環境の詳細分析。

AI inference startup Baseten reportedly raising $1.5B

TechCrunchの最初の報道 — 投資背景と市場の文脈。

よくある質問

Basetanのような推論レイヤーを使えばOpenAI APIを完全に代替できますか？

すべての作業を代替するわけではありません。単純な分類、要約、埋め込みなど、性能閾値が低い作業からOSSへの移行を始めるのが現実的です。GPT-4/Claudeの最新モデル固有の機能が必要な作業は引き続き直結が必要です。

OSSモデルは本当にGPT-4レベルに達しましたか？

汎用タスクの基準では、かなり近づいています。Llama 3.3 70B、Qwen2.5 72Bなどは多くのベンチマークでGPT-4 Turboと同等かそれ以上です。ただし、マルチモーダル、複雑な推論、最新知識が必要な作業ではまだ差があります。自分のサービスの実際のタスクでテストするのが最も正確です。

Basetan以外に似たような推論レイヤーサービスはありますか？

Together AI、Fireworks AI、Modal Labsが同じカテゴリにあります。Together AIは$1B+ ARRを超えており、Modal Labsは$4.65Bのバリュエーションです。それぞれポジショニングが異なるため、使用するモデルの種類とクラウド環境に合わせて直接比較することをお勧めします。

OpenAIがさらに価格を下げたら推論レイヤーの意義はなくなりませんか？

トークン価格は毎年急落していますが、OSSモデルの品質も同様に速く向上しています。コスト削減よりも、マルチクラウドの柔軟性、ベンダーロックインの回避、エンジニアリング負担の軽減が推論レイヤーのコアバリューです。BasetanのCEOもOSSが良くなるほど自分たちも成長すると語っています。

現在AIのAPIを直結で使っていますが、今すぐ何をすべきですか？

まず過去3ヶ月のAI請求書で最もコストが大きいAPIコールの種類を把握しましょう。月$500未満なら今すぐ急ぐ必要はありません。それ以上なら、Together AIやBasetanの無料テスト環境でそのタスクをOSSモデルで実行して品質を比較してみてください。30分でおおよそのコスト・品質のトレードオフを確認できます。