클라우드 API 비용이 슬슬 아프기 시작하셨나요? 아니면 민감한 데이터를 외부 서버에 보내는 게 불편하셨나요? Google이 4월 2일에 공개한 Gemma 4는 그 고민의 답이 될 수 있어요. 총 26B 파라미터 중 3.8B만 활성화하는 MoE 구조 덕분에, Mac Mini 하나에서 20~30 tok/s로 돌아갑니다.
이게 뭔데?
Gemma 4는 Google DeepMind가 2026년 4월 2일에 공개한 오픈 웨이트 LLM 패밀리예요. Apache 2.0 라이선스라 상업적으로도 자유롭게 쓸 수 있고요.
이 중에서 가장 주목할 건 26B A4B 모델이에요. "A4B"는 Active 4 Billion이라는 뜻인데, 총 26B(252억) 파라미터 중에서 실제로 추론할 때는 3.8B(38억)만 활성화돼요. 128개의 전문가(Expert) 네트워크 중 필요한 것만 골라 쓰는 MoE(Mixture of Experts) 구조 덕분이에요.
MoE가 왜 중요한가요?
26B 모델이 4B 모델 속도로 돌아간다는 뜻이에요. 메모리는 26B를 담을 만큼 필요하지만, 실제 연산 비용은 4B 수준이라 Mac의 통합 메모리에서도 실용적인 속도가 나와요. AIME 2026 수학 벤치마크에서 88.3%, MMLU Pro에서 82.6%를 기록했어요.
그리고 Ollama는 로컬에서 LLM을 돌리기 위한 오픈소스 도구예요. Docker처럼 ollama pull, ollama run 명령어로 모델을 관리하고 실행할 수 있어요. 설치하면 OpenAI 호환 API 서버가 localhost:11434에 자동으로 뜨기 때문에, 기존에 OpenAI API를 쓰던 앱이나 워크플로우에 URL만 바꿔서 연결할 수 있어요.
HN(Hacker News)에서 322포인트를 받은 이 셋업 가이드가 화제였던 이유는 명확해요. "설치부터 자동 시작까지 10분이면 끝나는, 진짜 실용적인 로컬 AI 셋업"이니까요.
뭐가 달라지는 건데?
"그냥 API 쓰면 되지, 왜 로컬에서 돌려?" — 이 질문에 대한 답을 숫자로 비교해볼게요.
| 비교 항목 | 클라우드 API (GPT-4o 등) | 로컬 Ollama + Gemma 4 26B |
|---|---|---|
| 초기 비용 | $0 (종량제) | $0 (모델 무료, 기존 Mac 사용) |
| 월 운영비 (일 100회 기준) | $30~150+ (모델·토큰량에 따라) | 전기세만 ($3~5) |
| 데이터 프라이버시 | 외부 서버 전송 필수 | 내 Mac에서 완결 — 외부 전송 0 |
| 인터넷 필요 | 항상 필요 | 최초 다운로드 후 오프라인 사용 가능 |
| 응답 속도 | 네트워크 지연 포함 0.5~2초 | 로컬이라 지연 없음 (20~30 tok/s) |
| 컨텍스트 윈도우 | 128K (GPT-4o) | 256K (Gemma 4 26B) |
| 모델 성능 | 프론티어 모델 (Claude, GPT) 우위 | Arena AI 텍스트 리더보드 #6 |
| Rate Limit | 분당/일간 제한 있음 | 무제한 |
물론 Claude 4나 GPT-5 같은 프론티어 모델의 절대 성능을 로컬이 따라잡긴 아직 어려워요. 하지만 HN 토론에서도 나왔듯이, 로컬 모델은 프라이버시가 중요한 작업, 반복적인 자동화, API 비용이 부담되는 프로토타이핑에서 확실한 강점이 있어요.
하드웨어 주의사항
26B 모델(Q4_K_M 양자화)은 약 15~18GB 메모리를 사용해요. 최소 32GB 통합 메모리를 권장합니다. 16GB Mac에서는 시스템이 버벅거리고, 24GB에서도 동시 요청 시 프리징이 보고됐어요. 16GB Mac이라면 gemma4:e4b(4.5B, 약 9.6GB)가 현실적인 선택이에요.
핵심만 정리: 시작하는 법
- Ollama 설치
brew install --cask ollama-app
설치 후open -a Ollama로 실행하면 메뉴바에 아이콘이 뜹니다. CLI 도구가/opt/homebrew/bin/ollama에 설치돼요. - Gemma 4 모델 다운로드
ollama pull gemma4:26b
약 18GB를 다운로드합니다. 32GB 미만 Mac이라면ollama pull gemma4(기본 8B)나ollama pull gemma4:e4b를 추천해요. -
테스트 실행
ollama run gemma4:26b "안녕, 넌 어떤 모델이야?"
응답이 오면 성공.ollama ps로 현재 로딩된 모델과 메모리 사용량을 확인할 수 있어요. - GPU 최적화 환경변수 설정
launchctl setenv OLLAMA_NUM_GPU 99
Apple Silicon의 통합 메모리에 가능한 많은 레이어를 올려서 속도를 최대화해요. 이 설정 없이는 CPU 폴백이 생겨 속도가 반 이하로 떨어질 수 있어요. - 모델 상시 로딩 (언로드 방지)
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
기본값은 5분 후 자동 언로드인데, 26B 모델 재로딩에 15~30초 걸려요. "-1"로 설정하면 영구 로딩 상태를 유지해요. 재부팅 후에도 유지하려면~/.zshrc에export OLLAMA_KEEP_ALIVE="-1"을 추가하세요. - 자동 시작 설정 (선택)
macOS Login Items에 Ollama를 추가하고, LaunchAgent로 모델 프리로드를 자동화하면 Mac 켜질 때마다 AI가 바로 준비돼요. 구체적인 plist 설정은 아래 리소스의 원본 가이드에 있어요. - 앱에서 연동하기 (OpenAI 호환 API)
Ollama는 localhost:11434에서 OpenAI 호환 API를 제공해요. 기존 코드에서 base URL만 바꾸면 됩니다.
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"gemma4:26b","messages":[{"role":"user","content":"Hello"}]}'




