GitHub Copilot의 토큰 청구가 시작된 건 6월 1일이에요. Microsoft가 자체 코딩 모델을 공개한 건 그 다음날인 6월 2일이고요. 하루 차이. 우연일 수도 있어요. 근데 이 모델의 설계를 보면 생각이 좀 달라져요.
137B라는데 왜 싸고 빠른 거예요?
MAI-Code-1-Flash는 전체 파라미터는 137B이지만 추론할 때 활성화되는 건 5B뿐이에요. 이게 Mixture-of-Experts(MoE) 구조예요.
MoE는 마치 전문의 팀처럼 동작해요. 환자가 오면 담당 전문의 한두 명만 실제로 진료하듯, 모델도 각 토큰마다 137B 중 가장 관련 있는 5B만 활성화해서 처리해요. 나머지 132B는 그 토큰 처리에 개입하지 않아요. 결과적으로 연산량은 5B 모델 수준이면서도, 다양한 작업 유형에 특화된 전문가 영역 지식을 폭넓게 갖출 수 있어요.
빠르고 저렴하면서 스마트한 이유가 바로 MoE 구조예요. 비용으로 따지면 입력 1M 토큰당 $0.75, 출력 1M 토큰당 $4.50이에요. 같은 작업에 토큰도 60% 덜 쓰니까요.
벤치마크가 아니라 Copilot 현장에서 훈련됐다
대부분의 코딩 모델은 SWE-Bench 같은 벤치마크에서 잘 나오도록 훈련돼요. MAI-Code-1-Flash는 방향이 달라요. 실제 GitHub Copilot 생산 환경에서 벌어지는 작업들 — 파일 편집, 터미널 호출, 멀티턴 대화 — 그 흐름 자체에서 훈련됐어요.
그리고 하나 더: OpenAI나 다른 회사 모델에서 지식을 추출(distillation)하지 않았어요. Microsoft가 직접 수집한 깨끗하고 추적 가능한 엔터프라이즈급 데이터로만 만든 첫 자체 모델이에요. Microsoft의 OpenAI 의존을 끊겠다는 선언이기도 하죠.
| 일반 코딩 모델 | MAI-Code-1-Flash | |
|---|---|---|
| 훈련 환경 | 코딩 벤치마크 최적화 | Copilot 실제 생산 환경 |
| 데이터 출처 | 다양 (증류 포함 가능) | 자체 수집, 제3자 증류 없음 |
| SWE-Bench Pro | 35.2% (Claude Haiku 4.5) | 51.2% (+16점) |
| SWE-Bench Verified | 66.6% (Claude Haiku 4.5) | 71.6% |
| 토큰 효율 | 기준 | 어려운 문제에서 최대 60% 절약 |
명령어 수행 능력(IF Bench)에서는 Claude Haiku 4.5 대비 28.9점 차이로 앞섰어요. 적대적 추론 테스트(186문항, 34개 카테고리)에서는 85.8% 정확도를 기록했고요. 숫자만 놓고 보면 경량 모델이라고 무시하기 어려운 수준이에요.
Copilot 청구서와의 연결고리
GPT-5.5는 입력 1M 토큰당 $5, 출력 $30이에요. MAI-Code-1-Flash는 입력 $0.75, 출력 $4.50이고요. 토큰도 60% 덜 쓰니까, 같은 작업 대비 실제 청구서 차이는 상당해요.
Copilot 모델 피커에서 MAI-Code-1-Flash 세팅하는 법
- VS Code + Copilot 확장 업데이트
최신 버전에서만 모델 피커가 나타나요. VS Code Extensions 탭에서 GitHub Copilot 확장을 최신으로 업데이트하세요. - 모델 피커에서 선택 또는 Auto 활용
Copilot Chat 패널에서 드롭다운을 클릭하면 모델 목록이 나와요. MAI-Code-1-Flash를 직접 선택하거나, Auto를 선택하면 작업 유형에 따라 Copilot이 자동 라우팅해줘요. - 업무 유형별 추천 라우팅
인라인 편집, 리팩터, 짧은 버그 픽스, 레포 Q&A, 반복 작업 → MAI-Code-1-Flash. 복잡한 아키텍처 설계, 심층 보안 리뷰, 대규모 자율 구현 → 프런티어 모델(MAI-Thinking-1, Claude Opus 등). - Business/Enterprise 사용자라면
2026년 6월 26일부터 Business·Enterprise 플랜도 일반 출시됐어요. 아직 피커에 안 보인다면 며칠 기다리거나 GitHub Community Discussions를 확인하세요. - 사용량 대시보드 모니터링
Copilot 설정의 Usage Dashboard에서 모델별 토큰 소비를 확인할 수 있어요. MAI-Code-1-Flash 절감 효과를 직접 숫자로 검증해보세요.
이런 작업에는 다른 모델을 쓰세요
대규모 아키텍처 결정, 장기 자율 구현, 복잡한 멀티시스템 디버깅에는 MAI-Code-1-Flash가 최선이 아닐 수 있어요. 일상 코딩의 빠른 첫 번째 응답자 역할에 최적화된 모델이에요.
MAI-Code-1-Flash가 지원되는 환경을 정리하면요.





