storage.googleapis.com

Mac Mini 1台でAIを動かす — Ollama + Gemma 4 ローカルセットアップガイド

Ollama + Gemma 4AI 도구 실전기

Gemma 4: Byte for byte, the most capable open models — Google Blog

Gemma 4 — Google DeepMind

google/gemma-4-26B-A4B — Hugging Face

クラウドAPIの費用が少し痛くなってきましたか？それとも、機密データを外部サーバーに送るのが不安でしたか？Googleが4月2日に公開したGemma 4は、その悩みの答えになるかもしれません。総26Bパラメータのうち3.8Bのみを活性化するMoE構造のおかげで、Mac Mini 1台で20〜30 tok/sで動きます。

3秒で要約

Ollamaインストール（1分） → Gemma 4モデルダウンロード（5分） → 環境変数設定 → 自動起動 + 常時ロード → OpenAI互換APIでアプリ連携

これは何?

Gemma 4はGoogle DeepMindが2026年4月2日に公開したオープンウェイトLLMファミリーです。Apache 2.0ライセンスなので商業利用も自由にできます。

中でも最も注目すべきは26B A4Bモデルです。「A4B」はActive 4 Billionの意味で、総26B（252億）パラメータのうち、実際に推論する際は3.8B（38億）のみが活性化されます。128個の専門家（Expert）ネットワークから必要なものだけを選んで使うMoE（Mixture of Experts）構造のおかげです。

MoEはなぜ重要なのか？

26Bモデルが4Bモデルの速度で動くということです。メモリは26Bを収めるだけ必要ですが、実際の計算コストは4Bレベルなので、Macの統合メモリでも実用的な速度が出ます。AIME 2026数学ベンチマークで88.3%、MMLU Proで82.6%を記録しました。

そしてOllamaは、ローカルでLLMを動かすためのオープンソースツールです。Dockerのようにollama pull、ollama runコマンドでモデルを管理・実行できます。インストールするとOpenAI互換APIサーバーがlocalhost:11434に自動で起動するため、既存のOpenAI APIを使っていたアプリやワークフローにURLを変えるだけで接続できます。

HN（Hacker News）で322ポイントを獲得したこのセットアップガイドが注目された理由は明確です。「インストールから自動起動まで10分で終わる、本当に実用的なローカルAIセットアップ」だからです。

何が変わるのか?

「どうせAPIを使えばいいじゃないか、なぜローカルで動かすの？」――この質問への答えを数字で比べてみましょう。

比較項目	クラウドAPI（GPT-4oなど）	ローカル Ollama + Gemma 4 26B
初期費用	$0（従量制）	$0（モデル無料、既存Mac利用）
月間運用費（1日100回基準）	$30〜150+（モデル・トークン量による）	電気代のみ（$3〜5）
データプライバシー	外部サーバーへの送信が必須	自分のMacで完結――外部送信ゼロ
インターネット接続	常時必要	初回ダウンロード後はオフラインで使用可能
応答速度	ネットワーク遅延込みで0.5〜2秒	ローカルなので遅延なし（20〜30 tok/s）
コンテキストウィンドウ	128K（GPT-4o）	256K（Gemma 4 26B）
モデル性能	フロンティアモデル（Claude、GPT）が優位	Arena AIテキストリーダーボード6位
レート制限	分間/日間の制限あり	無制限

もちろん、Claude 4やGPT-5のようなフロンティアモデルの絶対的な性能にローカルが追いつくのはまだ難しいです。ただしHNのディスカッションでも出ていたように、ローカルモデルはプライバシーが重要な作業、反復的な自動化、APIコストが負担になるプロトタイピングで明確な強みがあります。

ハードウェアに関する注意

26Bモデル（Q4_K_M量子化）は約15〜18GBのメモリを使用します。最低32GBの統合メモリを推奨します。16GB Macではシステムがもたつき、24GBでも同時リクエスト時にフリーズが報告されています。 16GB Macならgemma4:e4b（4.5B、約9.6GB）が現実的な選択です。

始め方のポイント

Ollamaのインストール
brew install --cask ollama-app
インストール後、open -a Ollamaで起動するとメニューバーにアイコンが表示されます。CLIツールが/opt/homebrew/bin/ollamaにインストールされます。
Gemma 4モデルのダウンロード
ollama pull gemma4:26b
約18GBをダウンロードします。32GB未満のMacならollama pull gemma4（デフォルト8B）またはollama pull gemma4:e4bがおすすめです。
テスト実行
ollama run gemma4:26b "こんにちは、あなたはどんなモデル？"
応答が来れば成功です。ollama psで現在ロードされているモデルとメモリ使用量を確認できます。
GPU最適化環境変数の設定
launchctl setenv OLLAMA_NUM_GPU 99
Apple Siliconの統合メモリにできるだけ多くのレイヤーを載せて速度を最大化します。この設定がないとCPUへのフォールバックが発生し、速度が半分以下になることがあります。
モデルの常時ロード（アンロード防止）
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
デフォルトでは5分後に自動でアンロードされますが、26Bモデルの再ロードには15〜30秒かかります。「-1」に設定すると永続的なロード状態を維持します。再起動後も維持するには~/.zshrcにexport OLLAMA_KEEP_ALIVE="-1"を追加してください。
自動起動の設定（任意）
macOSのLogin ItemsにOllamaを追加し、LaunchAgentでモデルのプリロードを自動化すると、Mac起動時にすぐAIが使える状態になります。具体的なplist設定は、下記リソースの元のガイドに記載されています。
アプリからの連携（OpenAI互換API）
Ollamaはlocalhost:11434でOpenAI互換APIを提供します。既存のコードでbase URLを変えるだけで接続できます。
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"gemma4:26b","messages":[{"role":"user","content":"Hello"}]}'

26B

総パラメータ（3.8B活性）

256K

コンテキストウィンドウ

~18GB

モデルダウンロードサイズ

20-30

tok/s（M4 Pro基準）

🔗

さらに深掘りしたい人へ

Ollama + Gemma 4 Mac miniセットアップガイド — GitHub Gist

HNで322ポイントを獲得した元のガイド。インストール、自動起動、LaunchAgent plist設定、常時ロードまで一度にまとめられています。

Gemma 4 26B on Mac Mini — DEV Community

量子化別メモリ要件（Q4_K_M〜FP16）、GPUオフロード最適化、コンテキストウィンドウのカスタマイズまで扱う詳細ガイド。

Gemma 4 — Ollama公式モデルページ

E2Bから31Bまで全モデルラインアップ、タグ別サイズ、対応機能、使用例がまとめられています。

Gemma 4公式ページ — Google DeepMind

ベンチマーク性能、アーキテクチャの詳細、エージェントワークフロー対応など公式スペック文書。

Gemma 4ハードウェアガイド — Compute Market

2Bから31Bまでモデル別VRAM要件、量子化オプション別の性能比較。自分のMacにどのモデルが合うか確認できます。

FAQ

16GB Macでもgemma 4を動かせますか？

26Bモデルは難しいです。16GB Macでは<code>gemma4:e4b</code>（4.5Bパラメータ、約9.6GB）をおすすめします。26Bより性能は落ちますが、MMLU Pro 69.4%で実務の自動化には十分使えます。

Ollama以外のツールもありますか？

LM StudioはGUIベースで初心者に使いやすく、llama.cppは細かい性能チューニングが可能です。どれも内部的に同じ推論エンジン（llama.cpp）を使っているため速度の差はあまりありません。APIサーバーが必要ならOllama、モデルの探索が目的ならLM Studioをおすすめします。

Gemma 4のLlamaなど他のオープンモデルと比べた強みは？

MoE構造のおかげで26Bモデルが4Bモデルの速度で動くのが最大の強みです。256Kコンテキストウィンドウ、マルチモーダル（画像・音声）対応、140言語対応も差別化ポイントです。Arena AIテキストリーダーボード6位で、オープンモデルの中でも最上位クラスです。

フロンティアモデル（Claude、GPT）を完全に代替できますか？

まだ難しいです。HNコミュニティでも、専門的なコーディングや複雑な推論はフロンティアモデルが優位という意見が大勢です。ただし、プライバシーが重要な作業、反復自動化、プロトタイピングでは、ローカルモデルがコスト・速度の面で明確な強みがあります。