クラウドAPIの費用が少し痛くなってきましたか?それとも、機密データを外部サーバーに送るのが不安でしたか?Googleが4月2日に公開したGemma 4は、その悩みの答えになるかもしれません。総26Bパラメータのうち3.8Bのみを活性化するMoE構造のおかげで、Mac Mini 1台で20〜30 tok/sで動きます。

3秒で要約
Ollamaインストール(1分) Gemma 4モデルダウンロード(5分) 環境変数設定 自動起動 + 常時ロード OpenAI互換APIでアプリ連携

これは何?

Gemma 4はGoogle DeepMindが2026年4月2日に公開したオープンウェイトLLMファミリーです。Apache 2.0ライセンスなので商業利用も自由にできます。

中でも最も注目すべきは26B A4Bモデルです。「A4B」はActive 4 Billionの意味で、総26B(252億)パラメータのうち、実際に推論する際は3.8B(38億)のみが活性化されます。128個の専門家(Expert)ネットワークから必要なものだけを選んで使うMoE(Mixture of Experts)構造のおかげです。

MoEはなぜ重要なのか?

26Bモデルが4Bモデルの速度で動くということです。メモリは26Bを収めるだけ必要ですが、実際の計算コストは4Bレベルなので、Macの統合メモリでも実用的な速度が出ます。AIME 2026数学ベンチマークで88.3%、MMLU Proで82.6%を記録しました。

そしてOllamaは、ローカルでLLMを動かすためのオープンソースツールです。Dockerのようにollama pullollama runコマンドでモデルを管理・実行できます。インストールするとOpenAI互換APIサーバーがlocalhost:11434に自動で起動するため、既存のOpenAI APIを使っていたアプリやワークフローにURLを変えるだけで接続できます。

HN(Hacker News)で322ポイントを獲得したこのセットアップガイドが注目された理由は明確です。「インストールから自動起動まで10分で終わる、本当に実用的なローカルAIセットアップ」だからです。

何が変わるのか?

「どうせAPIを使えばいいじゃないか、なぜローカルで動かすの?」――この質問への答えを数字で比べてみましょう。

比較項目 クラウドAPI(GPT-4oなど) ローカル Ollama + Gemma 4 26B
初期費用 $0(従量制) $0(モデル無料、既存Mac利用)
月間運用費(1日100回基準) $30〜150+(モデル・トークン量による) 電気代のみ($3〜5)
データプライバシー 外部サーバーへの送信が必須 自分のMacで完結――外部送信ゼロ
インターネット接続 常時必要 初回ダウンロード後はオフラインで使用可能
応答速度 ネットワーク遅延込みで0.5〜2秒 ローカルなので遅延なし(20〜30 tok/s)
コンテキストウィンドウ 128K(GPT-4o) 256K(Gemma 4 26B)
モデル性能 フロンティアモデル(Claude、GPT)が優位 Arena AIテキストリーダーボード6位
レート制限 分間/日間の制限あり 無制限

もちろん、Claude 4やGPT-5のようなフロンティアモデルの絶対的な性能にローカルが追いつくのはまだ難しいです。ただしHNのディスカッションでも出ていたように、ローカルモデルはプライバシーが重要な作業、反復的な自動化、APIコストが負担になるプロトタイピングで明確な強みがあります。

ハードウェアに関する注意

26Bモデル(Q4_K_M量子化)は約15〜18GBのメモリを使用します。最低32GBの統合メモリを推奨します。16GB Macではシステムがもたつき、24GBでも同時リクエスト時にフリーズが報告されています。 16GB Macならgemma4:e4b(4.5B、約9.6GB)が現実的な選択です。

始め方のポイント

  1. Ollamaのインストール
    brew install --cask ollama-app
    インストール後、open -a Ollamaで起動するとメニューバーにアイコンが表示されます。CLIツールが/opt/homebrew/bin/ollamaにインストールされます。
  2. Gemma 4モデルのダウンロード
    ollama pull gemma4:26b
    約18GBをダウンロードします。32GB未満のMacならollama pull gemma4(デフォルト8B)またはollama pull gemma4:e4bがおすすめです。
  3. テスト実行
    ollama run gemma4:26b "こんにちは、あなたはどんなモデル?"
    応答が来れば成功です。ollama psで現在ロードされているモデルとメモリ使用量を確認できます。
  4. GPU最適化環境変数の設定
    launchctl setenv OLLAMA_NUM_GPU 99
    Apple Siliconの統合メモリにできるだけ多くのレイヤーを載せて速度を最大化します。この設定がないとCPUへのフォールバックが発生し、速度が半分以下になることがあります。
  5. モデルの常時ロード(アンロード防止)
    launchctl setenv OLLAMA_KEEP_ALIVE "-1"
    デフォルトでは5分後に自動でアンロードされますが、26Bモデルの再ロードには15〜30秒かかります。「-1」に設定すると永続的なロード状態を維持します。再起動後も維持するには~/.zshrcexport OLLAMA_KEEP_ALIVE="-1"を追加してください。
  6. 自動起動の設定(任意)
    macOSのLogin ItemsにOllamaを追加し、LaunchAgentでモデルのプリロードを自動化すると、Mac起動時にすぐAIが使える状態になります。具体的なplist設定は、下記リソースの元のガイドに記載されています。
  7. アプリからの連携(OpenAI互換API)
    Ollamaはlocalhost:11434でOpenAI互換APIを提供します。既存のコードでbase URLを変えるだけで接続できます。
    curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"gemma4:26b","messages":[{"role":"user","content":"Hello"}]}'
26B
総パラメータ(3.8B活性)
256K
コンテキストウィンドウ
~18GB
モデルダウンロードサイズ
20-30
tok/s(M4 Pro基準)