SWE-bench 1위를 되찾았습니다. 코딩 벤치마크 전반에서 GPT-5.4와 Gemini 3.1 Pro를 제치고 다시 꼭대기에 올라선 Claude Opus 4.7 — 그런데 이걸 쓰고 나면 토큰 지갑이 텅텅 빕니다.
이게 뭔데?
Anthropic이 4월 16일 공개한 Opus 4.7은 전작 Opus 4.6의 직접적인 업그레이드입니다. "가장 어려운 코딩 작업을 감독 없이 맡길 수 있다"는 게 Anthropic의 핵심 메시지예요.
실제로 이 모델은 자기 검증(self-verification) 능력이 눈에 띕니다. 한 테스트에서는 Rust로 텍스트-투-스피치 엔진을 처음부터 만든 뒤, 자기가 만든 오디오를 별도의 음성 인식기에 넣어서 Python 레퍼런스와 일치하는지 스스로 확인했어요. 시니어 엔지니어 몇 달치 작업을 자율적으로 해치운 셈입니다.
핵심 변화: Opus 4.7은 지시를 "문자 그대로" 따릅니다. 이전 모델이 느슨하게 해석하던 프롬프트를 정확히 실행하기 때문에, 기존 프롬프트를 그대로 쓰면 예상치 못한 결과가 나올 수 있어요. Anthropic은 프롬프트 재조정을 공식적으로 권고합니다.
가격은 Opus 4.6과 동일하게 입력 $5/출력 $25 (100만 토큰당)이고, Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에서 바로 사용 가능합니다.
뭐가 달라지는 건데?
벤치마크 숫자부터 정리합니다. Opus 4.7은 "모든 곳에서 1위"는 아니지만, 개발자가 실제로 쓰는 영역에서 확실한 우위를 보여요.
| 벤치마크 | Opus 4.6 | Opus 4.7 | GPT-5.4 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | - | 80.6% |
| SWE-bench Pro | 53.4% | 64.3% | 57.7% | 54.2% |
| MCP-Atlas (도구 사용) | 75.8% | 77.3% | 68.1% | 73.9% |
| OSWorld (컴퓨터 사용) | 72.7% | 78.0% | 75.0% | - |
| GPQA Diamond (추론) | 91.3% | 94.2% | 94.4% | 94.3% |
| BrowseComp (검색) | 83.7% | 79.3% | 89.3% | 85.9% |
| GDPVal-AA (지식노동 Elo) | - | 1,753 | 1,674 | 1,314 |
코딩과 도구 사용에서는 확실한 1위, 순수 추론은 "3강 동률", 웹 검색(BrowseComp)은 오히려 4.4포인트 하락했어요. 만능 모델이 아니라 코딩·에이전트 특화형입니다.
주의: BrowseComp에서 Opus 4.7(79.3%)이 4.6(83.7%)보다 오히려 떨어졌습니다. 웹 리서치가 핵심인 에이전트를 운영한다면 GPT-5.4 Pro(89.3%)나 Gemini 3.1 Pro(85.9%)가 더 나은 선택이에요.
비전이 3배 선명해졌다
이미지 처리 해상도가 최대 2,576px(장변 기준, 약 375만 픽셀)로 이전 모델의 3배 이상 올라갔습니다. 자율 보안 테스트 기업 XBOW는 시각 정확도가 54.5%에서 98.5%로 뛴 것을 확인했어요. 스크린샷을 읽는 컴퓨터 사용 에이전트, 복잡한 기술 다이어그램 해석, 밀도 높은 UI 탐색 — 이전에 "흐릿해서 못 봤던" 것들이 이제 가능해집니다.
에이전틱 워크플로의 진짜 개선
숫자 하나로 요약하기 어려운 변화가 있습니다.
Cognition(Devin)의 CEO는 "4.7은 수 시간 동안 일관되게 작업하고, 어려운 문제에서 포기하지 않는다"고 평가했어요. Factory Droids는 "절반에서 멈추던 모델이 이제 끝까지 간다"고 했고, Replit 대표는 "기술 토론에서 반박까지 해주는 동료 같다"고 표현했습니다.
토큰 소비라는 그림자
그런데 문제가 있습니다. Opus 4.7은 확실히 "더 많이 생각하고, 더 많이 소비합니다."
토큰 증가 원인 두 가지:
1. 새 토크나이저 — 동일한 입력이 1.0~1.35배 더 많은 토큰으로 변환됩니다.
2. 깊은 추론 — 특히 에이전틱 세팅의 후반 턴에서 출력 토큰이 크게 늘어납니다.
Decrypt의 실제 테스트에서는 단일 세션으로 전체 토큰 쿼터가 소진되는 상황이 발생했어요. 모델이 전체 코드를 완성한 뒤 "버그 수정 및 개선"이라는 라벨로 전체 코드를 처음부터 다시 작성하고, 또다시 재작성하는 패턴이 관찰됐습니다. Opus 4.6에서는 한 번도 없었던 행동입니다.
Anthropic도 이 문제를 인지하고 있어서, 새로운 effort 파라미터와 task budget을 도입했어요.
| Effort 레벨 | 특징 | 권장 용도 |
|---|---|---|
| low/medium | 빠른 응답, 최소 추론 | 간단한 질의, 데이터 변환 |
| high | 균형 잡힌 추론 | 일반 코딩, 분석 |
| xhigh (신규) | 깊은 추론, high와 max 사이 | 복잡한 에이전틱 코딩 (Claude Code 기본값) |
| max | 최대 추론, 최대 토큰 | 가장 어려운 문제에만 |
Task budget은 공개 베타로, 에이전트의 토큰 사용량에 상한선을 설정해 예상치 못한 비용 폭탄을 막아줍니다.
핵심만 정리: 시작하는 법
Opus 4.6에서 4.7로 마이그레이션할 때 알아야 할 것들을 정리했습니다.
- 프롬프트 재조정부터
4.7은 지시를 문자 그대로 따릅니다. "알아서 잘 해줘" 스타일 프롬프트는 예상치 못한 결과를 낼 수 있어요. 대표 트래픽으로 테스트한 뒤 전환하세요. - Effort 레벨 설정
코딩/에이전틱 작업은high또는xhigh로 시작하세요.max는 가장 어려운 문제에만 사용. Claude Code는 기본이 xhigh입니다. - 토큰 비용 측정
새 토크나이저 때문에 같은 입력이 최대 35% 더 많은 토큰을 소비합니다. 실제 트래픽으로 비용 변화를 먼저 측정하세요. - Task Budget 활용
장시간 에이전트 실행 시 API의 task budget(베타)으로 토큰 상한을 걸어두세요. 예기치 않은 과금을 방지합니다. - 웹 검색 에이전트는 주의
BrowseComp 점수가 하락했으므로, 리서치 중심 워크플로에는 GPT-5.4 Pro를 병행 검토하세요.
함께 출시된 신기능
Opus 4.7과 함께 발표된 업데이트도 있습니다.





