cdn.tech.eu

AIが遅い本当の理由はGPUじゃない — メモリの壁に$355Mが集まった理由

AI推論ボトルネック, メモリ帯域幅, Fractile, XCENA, インメモリコンピューティング, AI推論コストビジネス

UK AI chip startup Fractile raises $220M to tackle the growing inference bottleneck

Fractile Raises $220M as AI Inference Problem Gets Expensive

Fractile $220m round arrives as Anthropic eyes its UK silicon

AIが遅いと感じたら、GPUを増やせばいいと思いますよね。でも実際には、GPUを2倍にしてもトークン生成速度は2倍になりません。この10年でAIチップの演算性能は80倍に伸びたのに、メモリ帯域幅はわずか17倍しか向上していないんです。今のAIのボトルネックは脳ではなく、血管なんですよ。

3秒要約

GPUを増やしても速くならない → 本当のボトルネック＝メモリ帯域幅 → インメモリコンピューティング登場 → Fractile $220M + XCENA $135M → 2027年：AIコスト構造の再編

みんなこう信じている — GPUを増やせばAIは速くなる

NVIDIA H100は1枚約3万ドル。B200はその2倍以上します。AI企業がGPUに何兆円もつぎ込んでいるのは、この公式を信じているからです。GPUが多い＝演算が多い＝AIが速い。

でもメモリ帯域幅を見ると、話が変わってきます。NVIDIA H100は毎秒3.35 TBのデータを処理できます。H200は4.8 TB/sで43%向上しました。問題は、GPU演算性能が同じ期間にもっと速いペースで向上していることです。演算能力は余っているのに、メモリからデータを取り出す速度が追いついていないんです。

専門用語で「メモリウォール」と呼ばれる現象です。LLMがトークンを1つ生成するたびに、数百GBのモデルの重みをメモリから読み込む必要があります。この「読み込み」がボトルネックになっているため、演算コアがいくら多くてもメモリが遅ければ待つしかないんです。 10年間で演算は80倍になったのにメモリ帯域幅は17倍にとどまった格差が、今のボトルネックの本質です。

80×

AIチップ演算性能の向上（10年）

17×

メモリ帯域幅の向上（同期間）

約1ヶ月

現在のチップで1億トークン処理する時間

本当の問題はデータが移動する距離だ

現在のAIチップの構造を単純に描くと、こうなります。データがメモリから出て → CPUで前処理され → GPUへ送られて演算し → またメモリに戻る。トークンを1つ生成するたびにこの往復が繰り返されます。この移動自体が時間とエネルギーを消費しているんです。

Fractileが2022年から開発してきたのは、この往復をなくす方法です。「インメモリコンピューティング（In-Memory Compute）」アーキテクチャ——演算をメモリの外ではなく、SRAMセルの中で直接行う仕組みです。行列演算がメモリを離れることなく処理され、結果だけが出てくる構造ですね。

「速くなるとは、単に10秒が100ミリ秒になることではありません。数週間、数ヶ月かかっていたものが、はるかに短くなることです。」
— Walter Goodwin, Fractile CEO

数字で見ると：最先端のAIシステムが複雑な問題を解くとき、最大1億トークンを生成します。現在のチップでは毎秒約40トークンなので1ヶ月かかります。 Fractileの目標は毎秒1,200トークンに引き上げ、同じ作業を数日に短縮することです。この設計で、既存のGPUと比べて25倍速く、コストは10分の1を実現できると同社は主張しています。

	現在のGPU方式	インメモリコンピューティング
データの流れ	メモリ → CPU → GPU → メモリの繰り返し	メモリ内で演算完結
ボトルネック	メモリ帯域幅の限界（3〜8 TB/s）	データ移動を最小化
1億トークン処理	約1ヶ月（40トークン/秒）	数日目標（1,200トークン/秒）
コスト目標	基準値	10分の1（Fractileの主張）

2ヶ月で$355Mが同じ賭けに集まった

2026年5月のFractileの$220M調達は話題になりました。でも同じ月の末、韓国のチップスタートアップXCENAも$5.7億バリュエーションで$135Mを調達していたんです。アプローチは異なります。FractileはSRAM内で演算し、XCENAはCXL方式でDRAMのすぐ隣にプロセッサを置くMX1チップを開発しています。でも診断は同じです。

XCENAの言葉を借りると：「推論はもはや単純な演算問題ではなく、ますますメモリスケーリングの問題になっています。」ソウルとロンドンのチームが独立して同じ結論に達したわけです。

投資家の顔ぶれも意味深です。FractileにはFounders Fund（Peter Thiel）、元Intel CEOのPat Gelsingerが賭けています。 AnthropicはすでにFractileのチップが出たら購入するという協議を進めているとも報じられています。現在Anthropicの計算リソース供給元はNVIDIA、Google TPU、Amazon Trainium/Inferentiaの3社ですが、Fractileが4番目になる可能性があります。AI推論市場は2025年の約$1,030億から2030年には約$2,550億に成長する見通しです。

NVIDIAも知っている

Blackwellは前世代と比べてメモリ帯域幅を大幅に向上させ、H200はH100比43%向上しました。ただFractile/XCENAが狙っているのは「GPU内のメモリ帯域幅改善」ではなく「メモリと演算の統合」です。短期はNVIDIAが支配し続けますが、長期的なアーキテクチャ転換の賭けが今始まっています。

2027年までに今やっておくべきこと

Fractileのチップは2027年までお預けです。XCENAは2026年末の量産を目指しています。このトレンドが実務に与える影響は、今から準備できます。

AIサービスのコスト低下カーブを計画に織り込む
GPT、Claude、GeminiなどのAPIトークン単価は、インフラコストが下がれば一緒に下がります。今のROIが合わなければ、2027〜2028年の価格感覚で再計算してみましょう。今はコスト的に無理なことが、その頃には実現可能になるかもしれません。
長コンテキストのワークフローを今のうちに設計しておく
Fractileがターゲットにするのは「100万トークン超の深い推論」ユースケースです。ClaudeのContext 200K、Geminiの1Mコンテキストは今でも使えますが高価です。2027年以降は大幅に安く速くなる見通しなので、長いコンテキストが必要な業務プロセスを今のうちに整理しておくと有利です。
速度とコストのトレードオフを再点検する
今「コスト最適化」モードを使うとAIの応答が遅くなります。2027年以降はそのトレードオフ自体が縮まる見通しです。速度の問題で諦めていたユースケースをリストアップしておき、インフラコストが下がったときに引き出せる準備をしましょう。
AIプロバイダーのロックインに注意する
AnthropicがFractileを4番目のチップサプライヤーとして検討していることは、AIインフラの多様化が始まったサインです。供給者が多様化するほど価格競争が生まれます。今特定ベンダーに深くロックインされる契約には注意しましょう。
2027年後半をAIワークフロー再点検のタイミングとしてカレンダーに入れる
FractileもXCENAも2026〜2027年の量産を目標にしています。このタイミングをチームのAIインフラ・コスト再点検の時期として設定しましょう。今ROIが合わないAIユースケースを、その時点で改めて検討し直してみてください。

🔗