storage.googleapis.com

一台 Mac Mini 跑 AI — Ollama + Gemma 4 本地部署指南

Ollama + Gemma 4AI 도구 실전기

Gemma 4: Byte for byte, the most capable open models — Google Blog

Gemma 4 — Google DeepMind

google/gemma-4-26B-A4B — Hugging Face

是不是觉得云端 API 的账单越来越扎心?或者把敏感数据发到外部服务器总觉得不踏实?Google 在 4 月 2 日发布的 Gemma 4 也许就是答案。得益于总参数 26B 中仅激活 3.8B 的 MoE 架构,一台 Mac Mini 就能跑出 20~30 tok/s 的速度。

3秒速览

安装 Ollama(1 分钟) → 下载 Gemma 4 模型(5 分钟) → 配置环境变量 → 自动启动 + 常驻加载 → 通过 OpenAI 兼容 API 接入应用

这是什么?

Gemma 4 是 Google DeepMind 于 2026 年 4 月 2 日发布的开源权重 LLM 系列。采用 Apache 2.0 许可证,商用也完全没问题。

其中最值得关注的是 26B A4B 模型。"A4B" 的意思是 Active 4 Billion——总参数 26B(252 亿)中,实际推理时只激活 3.8B(38 亿)。这是因为它采用了 MoE(Mixture of Experts,专家混合) 架构,从 128 个专家网络中只挑选需要的专家参与运算。

MoE 为什么重要?

关键在于 26B 模型能跑出 4B 模型的速度。内存需要能装下 26B 没错,但实际计算成本只有 4B 的水平,所以在 Mac 的统一内存上也能达到实用速度。在 AIME 2026 数学基准上得分 88.3%,MMLU Pro 得分 82.6%。

另外 Ollama 是一款用于本地运行 LLM 的开源工具。它像 Docker 一样,通过 ollama pull、ollama run 命令来管理和运行模型。安装后会自动在 localhost:11434 启动一个 OpenAI 兼容 API 服务器,所以原先用 OpenAI API 的应用或工作流只需换个 URL 就能接入。

这份在 Hacker News(HN)上拿到 322 分的安装指南会走红,原因很明确:"从安装到自动启动只要 10 分钟,真正实用的本地 AI 部署方案"。

有什么不同?

"直接用 API 不就行了,为什么要在本地跑?"——我们用数字来回答这个问题。

对比项	云端 API(GPT-4o 等)	本地 Ollama + Gemma 4 26B
初始成本	$0(按量计费)	$0(模型免费,用现有 Mac)
月运营费(每天 100 次)	$30~150+(取决于模型和 token 量)	只算电费($3~5)
数据隐私	必须传到外部服务器	在本机完成——零外传
是否需要联网	始终需要	首次下载后可离线使用
响应速度	含网络延迟 0.5~2 秒	本地无延迟(20~30 tok/s)
上下文窗口	128K(GPT-4o)	256K(Gemma 4 26B)
模型性能	前沿模型(Claude、GPT)占优	Arena AI 文本榜单第 6 名
速率限制	有每分钟/每日上限	无限制

当然,在绝对性能上,本地模型还难以追上 Claude 4 或 GPT-5 这类前沿模型。但正如 HN 讨论中所说,本地模型在 涉及隐私的任务、重复性自动化、API 成本吃紧的原型开发 等场景中具备明显优势。

硬件注意事项

26B 模型(Q4_K_M 量化)大约占用 15~18GB 内存。建议至少 32GB 统一内存。16GB 的 Mac 会卡顿,24GB 在并发请求时也被反馈出现过冻结。如果是 16GB 的 Mac,更现实的选择是 gemma4:e4b(4.5B,约 9.6GB)。

上手指南

安装 Ollama
brew install --cask ollama-app
安装后执行 open -a Ollama,菜单栏会出现图标。CLI 工具会装在 /opt/homebrew/bin/ollama。
下载 Gemma 4 模型
ollama pull gemma4:26b
大约会下载 18GB。如果 Mac 内存低于 32GB,建议改用 ollama pull gemma4(默认 8B)或 ollama pull gemma4:e4b。
测试运行
ollama run gemma4:26b "你好,你是什么模型?"
有响应就算成功。用 ollama ps 可以查看当前已加载的模型和内存占用。
配置 GPU 优化环境变量
launchctl setenv OLLAMA_NUM_GPU 99
让 Apple Silicon 的统一内存尽可能多地承载模型层,以最大化速度。不设置这一项,可能会回退到 CPU,速度直接掉一半以上。
常驻加载模型(防止卸载)
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
默认 5 分钟无调用就自动卸载,而 26B 模型重新加载需要 15~30 秒。设为 "-1" 就会一直保持加载状态。如果想重启后继续生效,请在 ~/.zshrc 里加上 export OLLAMA_KEEP_ALIVE="-1"。
设置开机自动启动(可选)
把 Ollama 加入 macOS 登录项,再通过 LaunchAgent 自动预加载模型,这样开机时 AI 就随时待命。具体的 plist 配置可以参考下方资源里的原始指南。
在应用中接入(OpenAI 兼容 API)
Ollama 在 localhost:11434 提供 OpenAI 兼容 API,原有代码只需改 base URL 即可。
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"gemma4:26b","messages":[{"role":"user","content":"Hello"}]}'