storage.googleapis.com

Mac Mini 하나로 AI 돌리기 — Ollama + Gemma 4 로컬 셋업 가이드

Ollama + Gemma 4AI 도구 실전기

Gemma 4: Byte for byte, the most capable open models — Google Blog

Gemma 4 — Google DeepMind

google/gemma-4-26B-A4B — Hugging Face

클라우드 API 비용이 슬슬 아프기 시작하셨나요? 아니면 민감한 데이터를 외부 서버에 보내는 게 불편하셨나요? Google이 4월 2일에 공개한 Gemma 4는 그 고민의 답이 될 수 있어요. 총 26B 파라미터 중 3.8B만 활성화하는 MoE 구조 덕분에, Mac Mini 하나에서 20~30 tok/s로 돌아갑니다.

3초 요약

Ollama 설치 (1분) → Gemma 4 모델 다운로드 (5분) → 환경변수 설정 → 자동 시작 + 상시 로딩 → OpenAI 호환 API로 앱 연동

이게 뭔데?

Gemma 4는 Google DeepMind가 2026년 4월 2일에 공개한 오픈 웨이트 LLM 패밀리예요. Apache 2.0 라이선스라 상업적으로도 자유롭게 쓸 수 있고요.

이 중에서 가장 주목할 건 26B A4B 모델이에요. "A4B"는 Active 4 Billion이라는 뜻인데, 총 26B(252억) 파라미터 중에서 실제로 추론할 때는 3.8B(38억)만 활성화돼요. 128개의 전문가(Expert) 네트워크 중 필요한 것만 골라 쓰는 MoE(Mixture of Experts) 구조 덕분이에요.

MoE가 왜 중요한가요?

26B 모델이 4B 모델 속도로 돌아간다는 뜻이에요. 메모리는 26B를 담을 만큼 필요하지만, 실제 연산 비용은 4B 수준이라 Mac의 통합 메모리에서도 실용적인 속도가 나와요. AIME 2026 수학 벤치마크에서 88.3%, MMLU Pro에서 82.6%를 기록했어요.

그리고 Ollama는 로컬에서 LLM을 돌리기 위한 오픈소스 도구예요. Docker처럼 ollama pull, ollama run 명령어로 모델을 관리하고 실행할 수 있어요. 설치하면 OpenAI 호환 API 서버가 localhost:11434에 자동으로 뜨기 때문에, 기존에 OpenAI API를 쓰던 앱이나 워크플로우에 URL만 바꿔서 연결할 수 있어요.

HN(Hacker News)에서 322포인트를 받은 이 셋업 가이드가 화제였던 이유는 명확해요. "설치부터 자동 시작까지 10분이면 끝나는, 진짜 실용적인 로컬 AI 셋업"이니까요.

뭐가 달라지는 건데?

"그냥 API 쓰면 되지, 왜 로컬에서 돌려?" — 이 질문에 대한 답을 숫자로 비교해볼게요.

비교 항목	클라우드 API (GPT-4o 등)	로컬 Ollama + Gemma 4 26B
초기 비용	$0 (종량제)	$0 (모델 무료, 기존 Mac 사용)
월 운영비 (일 100회 기준)	$30~150+ (모델·토큰량에 따라)	전기세만 ($3~5)
데이터 프라이버시	외부 서버 전송 필수	내 Mac에서 완결 — 외부 전송 0
인터넷 필요	항상 필요	최초 다운로드 후 오프라인 사용 가능
응답 속도	네트워크 지연 포함 0.5~2초	로컬이라 지연 없음 (20~30 tok/s)
컨텍스트 윈도우	128K (GPT-4o)	256K (Gemma 4 26B)
모델 성능	프론티어 모델 (Claude, GPT) 우위	Arena AI 텍스트 리더보드 #6
Rate Limit	분당/일간 제한 있음	무제한

물론 Claude 4나 GPT-5 같은 프론티어 모델의 절대 성능을 로컬이 따라잡긴 아직 어려워요. 하지만 HN 토론에서도 나왔듯이, 로컬 모델은 프라이버시가 중요한 작업, 반복적인 자동화, API 비용이 부담되는 프로토타이핑에서 확실한 강점이 있어요.

하드웨어 주의사항

26B 모델(Q4_K_M 양자화)은 약 15~18GB 메모리를 사용해요. 최소 32GB 통합 메모리를 권장합니다. 16GB Mac에서는 시스템이 버벅거리고, 24GB에서도 동시 요청 시 프리징이 보고됐어요. 16GB Mac이라면 gemma4:e4b(4.5B, 약 9.6GB)가 현실적인 선택이에요.

핵심만 정리: 시작하는 법

Ollama 설치
brew install --cask ollama-app
설치 후 open -a Ollama로 실행하면 메뉴바에 아이콘이 뜹니다. CLI 도구가 /opt/homebrew/bin/ollama에 설치돼요.
Gemma 4 모델 다운로드
ollama pull gemma4:26b
약 18GB를 다운로드합니다. 32GB 미만 Mac이라면 ollama pull gemma4(기본 8B)나 ollama pull gemma4:e4b를 추천해요.
테스트 실행
ollama run gemma4:26b "안녕, 넌 어떤 모델이야?"
응답이 오면 성공. ollama ps로 현재 로딩된 모델과 메모리 사용량을 확인할 수 있어요.
GPU 최적화 환경변수 설정
launchctl setenv OLLAMA_NUM_GPU 99
Apple Silicon의 통합 메모리에 가능한 많은 레이어를 올려서 속도를 최대화해요. 이 설정 없이는 CPU 폴백이 생겨 속도가 반 이하로 떨어질 수 있어요.
모델 상시 로딩 (언로드 방지)
launchctl setenv OLLAMA_KEEP_ALIVE "-1"
기본값은 5분 후 자동 언로드인데, 26B 모델 재로딩에 15~30초 걸려요. "-1"로 설정하면 영구 로딩 상태를 유지해요. 재부팅 후에도 유지하려면 ~/.zshrc에 export OLLAMA_KEEP_ALIVE="-1"을 추가하세요.
자동 시작 설정 (선택)
macOS Login Items에 Ollama를 추가하고, LaunchAgent로 모델 프리로드를 자동화하면 Mac 켜질 때마다 AI가 바로 준비돼요. 구체적인 plist 설정은 아래 리소스의 원본 가이드에 있어요.
앱에서 연동하기 (OpenAI 호환 API)
Ollama는 localhost:11434에서 OpenAI 호환 API를 제공해요. 기존 코드에서 base URL만 바꾸면 됩니다.
curl http://localhost:11434/v1/chat/completions -H "Content-Type: application/json" -d '{"model":"gemma4:26b","messages":[{"role":"user","content":"Hello"}]}'

26B

총 파라미터 (3.8B 활성)

256K

컨텍스트 윈도우

~18GB

모델 다운로드 크기

20-30

tok/s (M4 Pro 기준)

🔗

더 깊이 파고 싶다면

Ollama + Gemma 4 Mac mini 셋업 가이드 — GitHub Gist

HN 322포인트를 받은 원본 가이드. 설치, 자동 시작, LaunchAgent plist 설정, 상시 로딩까지 한 번에 정리돼 있어요.

Gemma 4 26B on Mac Mini — DEV Community

양자화별 메모리 요구량(Q4_K_M~FP16), GPU 오프로딩 최적화, 컨텍스트 윈도우 커스터마이즈까지 다루는 심화 가이드.

Gemma 4 — Ollama 공식 모델 페이지

E2B부터 31B까지 전체 모델 라인업, 태그별 크기, 지원 기능, 사용 예제가 정리돼 있어요.

Gemma 4 공식 페이지 — Google DeepMind

벤치마크 성능, 아키텍처 세부사항, 에이전트 워크플로우 지원 등 공식 스펙 문서.

Gemma 4 하드웨어 가이드 — Compute Market

2B부터 31B까지 모델별 VRAM 요구량, 양자화 옵션별 성능 비교. 내 Mac에 어떤 모델이 맞는지 확인하세요.

자주 묻는 질문

16GB Mac에서도 Gemma 4를 돌릴 수 있나요?

26B 모델은 어렵습니다. 16GB Mac에서는 gemma4:e4b (4.5B 파라미터, 약 9.6GB)를 추천합니다. 성능은 26B보다 낮지만 MMLU Pro 69.4%로 실무 자동화에 충분히 쓸 수 있어요.

Ollama 말고 다른 도구도 있나요?

LM Studio는 GUI 기반으로 초보자에게 편하고, llama.cpp는 세밀한 성능 튜닝이 가능해요. 셋 다 내부적으로 같은 추론 엔진(llama.cpp)을 쓰기 때문에 속도 차이는 크지 않아요. API 서버가 필요하면 Ollama, 모델 탐색이 목적이면 LM Studio를 추천합니다.

Gemma 4와 Llama 같은 다른 오픈 모델 대비 장점은?

MoE 구조 덕분에 26B 모델이 4B 모델 속도로 돌아가는 게 최대 강점이에요. 256K 컨텍스트 윈도우, 멀티모달(이미지·오디오) 지원, 140개 언어 지원도 차별점입니다. Arena AI 텍스트 리더보드 #6으로 오픈 모델 중 최상위권이에요.

프론티어 모델(Claude, GPT)을 완전히 대체할 수 있나요?

아직은 어렵습니다. HN 커뮤니티에서도 전문 코딩이나 복잡한 추론은 프론티어 모델이 우위라는 의견이 대세예요. 하지만 프라이버시가 중요한 작업, 반복 자동화, 프로토타이핑에서는 로컬 모델이 비용·속도 면에서 확실한 강점이 있습니다.

Written by 러쉬

비즈니스와 AI가 만나는 접점을 추적합니다.

이 레퍼런스가 도움이 되셨나요?

매주 엄선된 레퍼런스를 메일로 받아보세요

이 레퍼런스 공유하기

다음 읽을 레퍼런스

AI 에이전트는 구글 안 씁니다 — Exa·Tavily·Parallel이 조용히 만든 새 검색 시장

AI 에이전트 전용 검색 API 시장에서 무슨 일이 벌어지고 있는지 — Exa $2.2B, Tavily 인수, Parallel $2B이 말하는 구글의 구조적 딜레마

이런 가이드도 추천해요

비슷한 주제의 AI 활용 가이드를 더 살펴보세요

22분 만에 323개 npm 패키지가 감염됐다 — AntV 공급망 공격 완전 해부

res.cloudinary.com

npm 공급망 보안npm 공급망 공격, AntV 악성 패키지, 자격증명 탈취, Sigstore 위조, Mini Shai-Hulud

22분 만에 323개 npm 패키지가 감염됐다 — AntV 공급망 공격 완전 해부

TeamPCP가 npm 유지관리자 계정을 탈취해 AntV 생태계 323개 패키지에 악성 코드를 주입했어요. 22분 만에 AWS·GitHub·Stripe 자격증명 탈취 코드가 배포됐고, Sigstore 증명까지 위조해 CI/CD에서도 합법처럼 보였어요. 지금 당장 해야 할 대응을 정리했어요.