Claude Opus 4.7 SWE-bench 벤치마크 비교 — Vellum AI

cdn.sanity.io

AI 코딩 에이전트 1위가 바뀌었다 — Claude Opus 4.7이 GPT-5.4를 제친 진짜 이유

Claude Opus 4.7, Amazon Bedrock, SWE-bench, Adaptive Thinking, 코딩 에이전트AI 도구 실전기

Introducing Anthropic's Claude Opus 4.7 model in Amazon Bedrock

Introducing Claude Opus 4.7

Claude Opus 4.7 — Amazon Bedrock Model Card

AI 코딩 에이전트 1위가 교체됐어요. 2026년 4월, Claude Opus 4.7이 SWE-bench Pro에서 64.3%를 찍으면서 GPT-5.4(57.7%)와 Gemini 3.1 Pro(54.2%)를 모두 제쳤어요. 그리고 이 모델이 Amazon Bedrock에 올라왔어요. 단순히 "접근 채널 하나 추가"가 아니에요 — Bedrock에 오면서 생긴 변화가 따로 있어요.

3초 요약

SWE-bench Pro 1위 → Adaptive Thinking 도입 → temperature 파라미터 폐지 → Bedrock 엔터프라이즈 인프라 → 코드 3줄로 시작

64.3%가 뭔데?

SWE-bench라는 벤치마크가 있어요. 실제 GitHub 오픈소스 레포에서 가져온 버그나 기능 요청을 AI가 얼마나 해결하는지 측정하는 거예요. 그중 SWE-bench Pro는 가장 어려운 버전이에요 — 유명 오픈소스 프로젝트의 실제 프로덕션 이슈를 다뤄요. "코딩 에이전트가 현실에서 얼마나 쓸만한가"를 측정하는 가장 현실적인 기준이에요.

Opus 4.7은 여기서 64.3%를 찍었어요. 전작 Opus 4.6은 53.4%였으니까 10.9%p 개선이에요. GPT-5.4(57.7%)와 비교하면 6.6%p 앞서고, Gemini 3.1 Pro(54.2%)와는 10.1%p 차이가 나요. 코딩 에이전트를 만들거나 쓰고 있다면, 이 차이가 체감상으로도 꽤 커요.

64.3%

SWE-bench Pro (Opus 4.7)

87.6%

SWE-bench Verified

77.3%

MCP-Atlas 툴 사용 (최고)

코딩만이 아니에요. 툴 사용 능력을 측정하는 MCP-Atlas에서도 77.3%로 GPT-5.4(75.3%)와 Gemini(73.9%)를 앞섰어요. AI 에이전트가 외부 툴을 얼마나 잘 다루는지의 척도인데, 멀티 에이전트 워크플로우 구축에 직결되는 지표예요. 다만 웹 리서치 지표인 BrowseComp는 79.3%로, 4.6의 83.7%보다 소폭 후퇴했어요. 코딩과 툴 사용에 집중했고, 웹 검색 쪽에서 트레이드오프가 있었다는 거예요.

비전 능력도 확 달라졌어요. 지원 이미지 해상도가 최대 2,576픽셀(장변 기준)로 올라갔어요 — 이전 모델 대비 3배 이상이에요. UI 스크린샷 분석, 복잡한 다이어그램 읽기, 밀도 높은 문서 처리에 직접 영향을 줘요. CharXiv 비주얼 추론 점수도 82.1%로 이전(69.1%)보다 13포인트 올랐어요.

뭐가 달라진 건데?

Opus 4.7이 기술적으로 가장 크게 바뀐 건 Adaptive Thinking이에요. Opus 4.6까지는 thinking.type: "enabled"와 budget_tokens를 직접 설정해야 했어요. "이 작업엔 최대 1000 토큰 생각해", "저 작업엔 5000 토큰 써" 하고 개발자가 수동으로 조절하던 방식이에요. 4.7에서는 이게 사라졌어요.

4.7은 thinking.type: "adaptive" 하나로 끝이에요. 모델이 작업 복잡도를 스스로 판단해서 추론 토큰을 알아서 배분해요. 단순한 질문엔 토큰을 아끼고, 복잡한 리팩토링 작업엔 깊이 파고드는 구조예요. budget_tokens 튜닝 없이 자동으로 최적화돼요.

	Opus 4.6	Opus 4.7
추론 설정	thinking.type: "enabled" + budget_tokens 수동	thinking.type: "adaptive" 하나로 완료
temperature/top_p	직접 조절 가능	지원 안 함 — 파라미터 제거 필요
SWE-bench Pro	53.4%	64.3% (+10.9%p)
이미지 해상도	이전 수준	최대 2,576px 장변 (3배 이상)
프롬프트 캐싱 TTL	5분	5분 · 1시간 선택 가능
비전 추론 (CharXiv)	69.1%	82.1% (+13%p)

4.6에서 마이그레이션 시 주의

Opus 4.6 코드를 그대로 4.7에 연결하면 400 에러가 나요. thinking.type을 "adaptive"로 바꾸고, temperature · top_p · top_k 파라미터를 완전히 제거해야 해요. budget_tokens도 사용 불가 — Adaptive Thinking이 자동으로 대체해요.

가격은 그대로예요. 입력 토큰 $5/M, 출력 토큰 $25/M — Opus 4.6과 동일해요. 단, 새로운 토크나이저가 적용되면서 동일 콘텐츠의 토큰 카운트가 1.0~1.35배 증가할 수 있어요. 실제 비용이 소폭 올라갈 수 있다는 점 참고하세요.

핵심만 정리: Bedrock에서 시작하는 법

AWS 계정 + Bedrock API 키 준비
Amazon Bedrock 콘솔에서 장기 API 키를 발급받아요. AWS_BEARER_TOKEN_BEDROCK 환경변수로 설정하면 돼요.
SDK 설치
Messages API 방식: pip install -U "anthropic[bedrock]". Converse/Invoke API 방식: pip install boto3. 두 방법 중 하나를 선택해요.
첫 요청 보내기
모델 ID는 anthropic.claude-opus-4-7, 리전은 us-east-1이 기본이에요. thinking 파라미터는 반드시 {"type": "adaptive"}만 사용해요 — budget_tokens나 enabled는 400 에러.
프롬프트 캐싱으로 비용 최적화
반복되는 시스템 프롬프트나 문서는 캐시 체크포인트(최소 4,096 토큰)를 설정해요. 5분 · 1시간 TTL을 선택할 수 있고, 반복 호출 비용을 크게 줄일 수 있어요.
Geo 추론으로 지연 최소화
한국에서 사용한다면 jp.anthropic.claude-opus-4-7(도쿄·오사카 라우팅)이나 global.anthropic.claude-opus-4-7을 사용하면 자동으로 최적 리전으로 연결돼요.

Bedrock의 엔터프라이즈 차별점

Bedrock의 next-generation inference engine은 고객 데이터에 대한 오퍼레이터 접근을 차단해요. AWS 생태계에서 이미 VPC, IAM, CloudWatch를 쓰고 있다면, 별도 보안 설정 없이 엔터프라이즈 수준의 데이터 격리를 그대로 얻을 수 있어요.

🔗

더 깊이 파고 싶다면

Introducing Claude Opus 4.7 — Anthropic

Opus 4.7 공식 발표. Adaptive Thinking 설계 원칙, 안전성 평가, 플랫폼별 출시 현황을 확인할 수 있어요.

Claude Opus 4.7 in Amazon Bedrock — AWS Blog

Bedrock 출시 발표 공식 글. Playground 사용법, API 코드 예제, 리전별 가용성이 담겨 있어요.

Claude Opus 4.7 Benchmarks Explained — Vellum AI

MCP-Atlas, OSWorld, CharXiv 등 세부 벤치마크 수치와 GPT-5.4·Gemini 3.1 Pro 비교 분석이 잘 정리돼 있어요.

Amazon Bedrock Model Card — AWS Docs

Adaptive Thinking 마이그레이션 가이드, 프롬프트 캐싱 설정, 서비스 티어, 리전별 라우팅 상세 스펙이 담겨 있어요.

Claude Opus 4.7 vs GPT-5.5 — DataCamp

코딩·추론·가격을 축으로 두 모델을 비교한 글. Terminal-Bench에서 GPT-5.5가 앞서는 구간도 확인할 수 있어요.

자주 묻는 질문

Opus 4.6 코드를 그대로 4.7에 연결해도 되나요?

바로 연결하면 400 에러가 나요. thinking.type을 'enabled'에서 'adaptive'로 바꾸고, temperature·top_p·top_k 파라미터를 완전히 제거해야 해요. budget_tokens도 더 이상 사용할 수 없어요 — Adaptive Thinking이 자동으로 대체해요.

SWE-bench 점수가 높으면 실제 내 프로젝트에서도 더 잘하나요?

대체로 상관관계가 있어요. SWE-bench Pro는 실제 오픈소스 프로덕션 이슈를 다루기 때문에 현실 성능과 가장 가까운 벤치마크예요. 다만 도메인 특화 코드나 사내 라이브러리가 많을수록 체감 격차는 줄 수 있어요. 직접 A/B 테스트해보는 게 제일 정확해요.

Adaptive Thinking이 추론 토큰을 자동으로 쓴다면 비용 예측이 어렵지 않나요?

맞는 지적이에요. 호출마다 추론 토큰이 달라지니까 비용 편차가 생겨요. 이걸 관리하려면 프롬프트 캐싱(4,096 토큰 이상 반복 콘텐츠)과 Bedrock Flex 서비스 티어(시간 민감하지 않은 작업)를 조합해서 평균 비용을 낮추는 게 좋아요.

이미지 분석(2,576px)을 코딩 에이전트에 어떻게 활용할 수 있나요?

UI 스크린샷을 보내서 '이 화면의 버그 찾아줘'가 대표 사례예요. 아키텍처 다이어그램 이미지를 넣고 코드 구조 리뷰를 요청하거나, 에러 스택트레이스 스크린샷을 분석시킬 수도 있어요. 고해상도 지원이 되면서 밀도 높은 문서나 코드 스크린샷도 충분히 읽어낼 수 있게 됐어요.

한국에서 Bedrock을 쓸 때 지연(latency) 문제가 있나요?

직접 리전을 지정하면 us-east-1(버지니아)이 기본이라 지연이 있어요. jp.anthropic.claude-opus-4-7 Geo ID를 사용하면 도쿄·오사카 리전으로 자동 라우팅돼서 지연이 크게 줄어요. 글로벌 ID global.anthropic.claude-opus-4-7도 좋은 대안이에요.