클라우드 API 비용이 슬슬 아프기 시작하셨나요? 아니면 민감한 데이터를 외부 서버에 보내는 게 불편하셨나요? Google이 4월 2일에 공개한 Gemma 4는 그 고민의 답이 될 수 있어요. 총 26B 파라미터 중 3.8B만 활성화하는 MoE 구조 덕분에, Mac Mini 하나에서 20~30 tok/s로 돌아갑니다.

3초 요약
Ollama 설치 (1분) Gemma 4 모델 다운로드 (5분) 환경변수 설정 자동 시작 + 상시 로딩 OpenAI 호환 API로 앱 연동

이게 뭔데?

Gemma 4는 Google DeepMind가 2026년 4월 2일에 공개한 오픈 웨이트 LLM 패밀리예요. Apache 2.0 라이선스라 상업적으로도 자유롭게 쓸 수 있고요.

이 중에서 가장 주목할 건 26B A4B 모델이에요. "A4B"는 Active 4 Billion이라는 뜻인데, 총 26B(252억) 파라미터 중에서 실제로 추론할 때는 3.8B(38억)만 활성화돼요. 128개의 전문가(Expert) 네트워크 중 필요한 것만 골라 쓰는 MoE(Mixture of Experts) 구조 덕분이에요.

MoE가 왜 중요한가요?

26B 모델이 4B 모델 속도로 돌아간다는 뜻이에요. 메모리는 26B를 담을 만큼 필요하지만, 실제 연산 비용은 4B 수준이라 Mac의 통합 메모리에서도 실용적인 속도가 나와요. AIME 2026 수학 벤치마크에서 88.3%, MMLU Pro에서 82.6%를 기록했어요.

그리고 Ollama는 로컬에서 LLM을 돌리기 위한 오픈소스 도구예요. Docker처럼 ollama pull, ollama run 명령어로 모델을 관리하고 실행할 수 있어요. 설치하면 OpenAI 호환 API 서버가 localhost:11434에 자동으로 뜨기 때문에, 기존에 OpenAI API를 쓰던 앱이나 워크플로우에 URL만 바꿔서 연결할 수 있어요.

HN(Hacker News)에서 322포인트를 받은 이 셋업 가이드가 화제였던 이유는 명확해요. "설치부터 자동 시작까지 10분이면 끝나는, 진짜 실용적인 로컬 AI 셋업"이니까요.

뭐가 달라지는 건데?

"그냥 API 쓰면 되지, 왜 로컬에서 돌려?" — 이 질문에 대한 답을 숫자로 비교해볼게요.

비교 항목 클라우드 API (GPT-4o 등) 로컬 Ollama + Gemma 4 26B
초기 비용 $0 (종량제) $0 (모델 무료, 기존 Mac 사용)
월 운영비 (일 100회 기준) $30~150+ (모델·토큰량에 따라) 전기세만 ($3~5)
데이터 프라이버시 외부 서버 전송 필수 내 Mac에서 완결 — 외부 전송 0
인터넷 필요 항상 필요 최초 다운로드 후 오프라인 사용 가능
응답 속도 네트워크 지연 포함 0.5~2초 로컬이라 지연 없음 (20~30 tok/s)
컨텍스트 윈도우 128K (GPT-4o) 256K (Gemma 4 26B)
모델 성능 프론티어 모델 (Claude, GPT) 우위 Arena AI 텍스트 리더보드 #6
Rate Limit 분당/일간 제한 있음 무제한

물론 Claude 4나 GPT-5 같은 프론티어 모델의 절대 성능을 로컬이 따라잡긴 아직 어려워요. 하지만 HN 토론에서도 나왔듯이, 로컬 모델은 프라이버시가 중요한 작업, 반복적인 자동화, API 비용이 부담되는 프로토타이핑에서 확실한 강점이 있어요.

하드웨어 주의사항

26B 모델(Q4_K_M 양자화)은 약 15~18GB 메모리를 사용해요. 최소 32GB 통합 메모리를 권장합니다. 16GB Mac에서는 시스템이 버벅거리고, 24GB에서도 동시 요청 시 프리징이 보고됐어요. 16GB Mac이라면 gemma4:e4b(4.5B, 약 9.6GB)가 현실적인 선택이에요.

핵심만 정리: 시작하는 법

  1. Ollama 설치
    brew install --cask ollama-app
    설치 후 open -a Ollama로 실행하면 메뉴바에 아이콘이 뜹니다. CLI 도구가 /opt/homebrew/bin/ollama에 설치돼요.
  2. Gemma 4 모델 다운로드
    ollama pull gemma4:26b
    약 18GB를 다운로드합니다. 32GB 미만 Mac이라면 ollama pull gemma4(기본 8B)나 ollama pull gemma4:e4b를 추천해요.
  3. 테스트 실행
    ollama run gemma4:26b "안녕, 넌 어떤 모델이야?"
    응답이 오면 성공. ollama ps로 현재 로딩된 모델과 메모리 사용량을 확인할 수 있어요.
  4. GPU 최적화 환경변수 설정
    launchctl setenv OLLAMA_NUM_GPU 99
    Apple Silicon의 통합 메모리에 가능한 많은 레이어를 올려서 속도를 최대화해요. 이 설정 없이는 CPU 폴백이 생겨 속도가 반 이하로 떨어질 수 있어요.
  5. 모델 상시 로딩 (언로드 방지)
    launchctl setenv OLLAMA_KEEP_ALIVE "-1"
    기본값은 5분 후 자동 언로드인데, 26B 모델 재로딩에 15~30초 걸려요. "-1"로 설정하면 영구 로딩 상태를 유지해요. 재부팅 후에도 유지하려면 ~/.zshrcexport OLLAMA_KEEP_ALIVE="-1"을 추가하세요.
  6. 자동 시작 설정 (선택)
    macOS Login Items에 Ollama를 추가하고, LaunchAgent로 모델 프리로드를 자동화하면 Mac 켜질 때마다 AI가 바로 준비돼요. 구체적인 plist 설정은 아래 리소스의 원본 가이드에 있어요.
  7. 앱에서 연동하기 (OpenAI 호환 API)
    Ollama는 localhost:11434에서 OpenAI 호환 API를 제공해요. 기존 코드에서 base URL만 바꾸면 됩니다.
    curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"gemma4:26b","messages":[{"role":"user","content":"Hello"}]}'
26B
총 파라미터 (3.8B 활성)
256K
컨텍스트 윈도우
~18GB
모델 다운로드 크기
20-30
tok/s (M4 Pro 기준)