是不是觉得云端 API 的账单越来越扎心?或者把敏感数据发到外部服务器总觉得不踏实?Google 在 4 月 2 日发布的 Gemma 4 也许就是答案。得益于总参数 26B 中仅激活 3.8B 的 MoE 架构,一台 Mac Mini 就能跑出 20~30 tok/s 的速度。
这是什么?
Gemma 4 是 Google DeepMind 于 2026 年 4 月 2 日发布的开源权重 LLM 系列。采用 Apache 2.0 许可证,商用也完全没问题。
其中最值得关注的是 26B A4B 模型。"A4B" 的意思是 Active 4 Billion——总参数 26B(252 亿)中,实际推理时只激活 3.8B(38 亿)。这是因为它采用了 MoE(Mixture of Experts,专家混合) 架构,从 128 个专家网络中只挑选需要的专家参与运算。
MoE 为什么重要?
关键在于 26B 模型能跑出 4B 模型的速度。内存需要能装下 26B 没错,但实际计算成本只有 4B 的水平,所以在 Mac 的统一内存上也能达到实用速度。在 AIME 2026 数学基准上得分 88.3%,MMLU Pro 得分 82.6%。
另外 Ollama 是一款用于本地运行 LLM 的开源工具。它像 Docker 一样,通过 ollama pull、ollama run 命令来管理和运行模型。安装后会自动在 localhost:11434 启动一个 OpenAI 兼容 API 服务器,所以原先用 OpenAI API 的应用或工作流只需换个 URL 就能接入。
这份在 Hacker News(HN)上拿到 322 分的安装指南会走红,原因很明确:"从安装到自动启动只要 10 分钟,真正实用的本地 AI 部署方案"。
有什么不同?
"直接用 API 不就行了,为什么要在本地跑?"——我们用数字来回答这个问题。
| 对比项 | 云端 API(GPT-4o 等) | 本地 Ollama + Gemma 4 26B |
|---|---|---|
| 初始成本 | $0(按量计费) | $0(模型免费,用现有 Mac) |
| 月运营费(每天 100 次) | $30~150+(取决于模型和 token 量) | 只算电费($3~5) |
| 数据隐私 | 必须传到外部服务器 | 在本机完成——零外传 |
| 是否需要联网 | 始终需要 | 首次下载后可离线使用 |
| 响应速度 | 含网络延迟 0.5~2 秒 | 本地无延迟(20~30 tok/s) |
| 上下文窗口 | 128K(GPT-4o) | 256K(Gemma 4 26B) |
| 模型性能 | 前沿模型(Claude、GPT)占优 | Arena AI 文本榜单第 6 名 |
| 速率限制 | 有每分钟/每日上限 | 无限制 |
当然,在绝对性能上,本地模型还难以追上 Claude 4 或 GPT-5 这类前沿模型。但正如 HN 讨论中所说,本地模型在 涉及隐私的任务、重复性自动化、API 成本吃紧的原型开发 等场景中具备明显优势。
硬件注意事项
26B 模型(Q4_K_M 量化)大约占用 15~18GB 内存。建议至少 32GB 统一内存。16GB 的 Mac 会卡顿,24GB 在并发请求时也被反馈出现过冻结。 如果是 16GB 的 Mac,更现实的选择是 gemma4:e4b(4.5B,约 9.6GB)。
上手指南
- 安装 Ollama
brew install --cask ollama-app
安装后执行open -a Ollama,菜单栏会出现图标。CLI 工具会装在/opt/homebrew/bin/ollama。 - 下载 Gemma 4 模型
ollama pull gemma4:26b
大约会下载 18GB。如果 Mac 内存低于 32GB,建议改用ollama pull gemma4(默认 8B)或ollama pull gemma4:e4b。 -
测试运行
ollama run gemma4:26b "你好,你是什么模型?"
有响应就算成功。用ollama ps可以查看当前已加载的模型和内存占用。 - 配置 GPU 优化环境变量
launchctl setenv OLLAMA_NUM_GPU 99
让 Apple Silicon 的统一内存尽可能多地承载模型层,以最大化速度。不设置这一项,可能会回退到 CPU,速度直接掉一半以上。 - 常驻加载模型(防止卸载)
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
默认 5 分钟无调用就自动卸载,而 26B 模型重新加载需要 15~30 秒。设为 "-1" 就会一直保持加载状态。如果想重启后继续生效,请在~/.zshrc里加上export OLLAMA_KEEP_ALIVE="-1"。 - 设置开机自动启动(可选)
把 Ollama 加入 macOS 登录项,再通过 LaunchAgent 自动预加载模型,这样开机时 AI 就随时待命。具体的 plist 配置可以参考下方资源里的原始指南。 - 在应用中接入(OpenAI 兼容 API)
Ollama 在 localhost:11434 提供 OpenAI 兼容 API,原有代码只需改 base URL 即可。
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"gemma4:26b","messages":[{"role":"user","content":"Hello"}]}'




