GitHub Copilot의 토큰 청구가 시작된 건 6월 1일이에요. Microsoft가 자체 코딩 모델을 공개한 건 그 다음날인 6월 2일이고요. 하루 차이. 우연일 수도 있어요. 근데 이 모델의 설계를 보면 생각이 좀 달라져요.

3초 요약
137B/5B MoE Copilot 현장 훈련 Claude Haiku 대비 +16점 토큰 60% 절약 일상 코딩 기본 모델

137B라는데 왜 싸고 빠른 거예요?

MAI-Code-1-Flash는 전체 파라미터는 137B이지만 추론할 때 활성화되는 건 5B뿐이에요. 이게 Mixture-of-Experts(MoE) 구조예요.

MoE는 마치 전문의 팀처럼 동작해요. 환자가 오면 담당 전문의 한두 명만 실제로 진료하듯, 모델도 각 토큰마다 137B 중 가장 관련 있는 5B만 활성화해서 처리해요. 나머지 132B는 그 토큰 처리에 개입하지 않아요. 결과적으로 연산량은 5B 모델 수준이면서도, 다양한 작업 유형에 특화된 전문가 영역 지식을 폭넓게 갖출 수 있어요.

빠르고 저렴하면서 스마트한 이유가 바로 MoE 구조예요. 비용으로 따지면 입력 1M 토큰당 $0.75, 출력 1M 토큰당 $4.50이에요. 같은 작업에 토큰도 60% 덜 쓰니까요.

137B
전체 파라미터
5B
추론 시 활성 파라미터
256K
컨텍스트 윈도우 (토큰)

벤치마크가 아니라 Copilot 현장에서 훈련됐다

대부분의 코딩 모델은 SWE-Bench 같은 벤치마크에서 잘 나오도록 훈련돼요. MAI-Code-1-Flash는 방향이 달라요. 실제 GitHub Copilot 생산 환경에서 벌어지는 작업들 — 파일 편집, 터미널 호출, 멀티턴 대화 — 그 흐름 자체에서 훈련됐어요.

그리고 하나 더: OpenAI나 다른 회사 모델에서 지식을 추출(distillation)하지 않았어요. Microsoft가 직접 수집한 깨끗하고 추적 가능한 엔터프라이즈급 데이터로만 만든 첫 자체 모델이에요. Microsoft의 OpenAI 의존을 끊겠다는 선언이기도 하죠.

일반 코딩 모델MAI-Code-1-Flash
훈련 환경코딩 벤치마크 최적화Copilot 실제 생산 환경
데이터 출처다양 (증류 포함 가능)자체 수집, 제3자 증류 없음
SWE-Bench Pro35.2% (Claude Haiku 4.5)51.2% (+16점)
SWE-Bench Verified66.6% (Claude Haiku 4.5)71.6%
토큰 효율기준어려운 문제에서 최대 60% 절약

명령어 수행 능력(IF Bench)에서는 Claude Haiku 4.5 대비 28.9점 차이로 앞섰어요. 적대적 추론 테스트(186문항, 34개 카테고리)에서는 85.8% 정확도를 기록했고요. 숫자만 놓고 보면 경량 모델이라고 무시하기 어려운 수준이에요.

Copilot 청구서와의 연결고리

GPT-5.5는 입력 1M 토큰당 $5, 출력 $30이에요. MAI-Code-1-Flash는 입력 $0.75, 출력 $4.50이고요. 토큰도 60% 덜 쓰니까, 같은 작업 대비 실제 청구서 차이는 상당해요.

Copilot 모델 피커에서 MAI-Code-1-Flash 세팅하는 법

  1. VS Code + Copilot 확장 업데이트
    최신 버전에서만 모델 피커가 나타나요. VS Code Extensions 탭에서 GitHub Copilot 확장을 최신으로 업데이트하세요.
  2. 모델 피커에서 선택 또는 Auto 활용
    Copilot Chat 패널에서 드롭다운을 클릭하면 모델 목록이 나와요. MAI-Code-1-Flash를 직접 선택하거나, Auto를 선택하면 작업 유형에 따라 Copilot이 자동 라우팅해줘요.
  3. 업무 유형별 추천 라우팅
    인라인 편집, 리팩터, 짧은 버그 픽스, 레포 Q&A, 반복 작업 → MAI-Code-1-Flash. 복잡한 아키텍처 설계, 심층 보안 리뷰, 대규모 자율 구현 → 프런티어 모델(MAI-Thinking-1, Claude Opus 등).
  4. Business/Enterprise 사용자라면
    2026년 6월 26일부터 Business·Enterprise 플랜도 일반 출시됐어요. 아직 피커에 안 보인다면 며칠 기다리거나 GitHub Community Discussions를 확인하세요.
  5. 사용량 대시보드 모니터링
    Copilot 설정의 Usage Dashboard에서 모델별 토큰 소비를 확인할 수 있어요. MAI-Code-1-Flash 절감 효과를 직접 숫자로 검증해보세요.

이런 작업에는 다른 모델을 쓰세요

대규모 아키텍처 결정, 장기 자율 구현, 복잡한 멀티시스템 디버깅에는 MAI-Code-1-Flash가 최선이 아닐 수 있어요. 일상 코딩의 빠른 첫 번째 응답자 역할에 최적화된 모델이에요.

MAI-Code-1-Flash가 지원되는 환경을 정리하면요.

1/3

IDE

VS Code, Visual Studio, JetBrains IDEs, Eclipse, Xcode

2/3

GitHub 서비스

Copilot Chat on GitHub, GitHub Mobile, Copilot cloud agent

3/3

CLI

Copilot CLI (터미널에서 직접 사용 가능)