AI 코딩 에이전트 1위가 교체됐어요. 2026년 4월, Claude Opus 4.7이 SWE-bench Pro에서 64.3%를 찍으면서 GPT-5.4(57.7%)와 Gemini 3.1 Pro(54.2%)를 모두 제쳤어요. 그리고 이 모델이 Amazon Bedrock에 올라왔어요. 단순히 "접근 채널 하나 추가"가 아니에요 — Bedrock에 오면서 생긴 변화가 따로 있어요.

3초 요약
SWE-bench Pro 1위 Adaptive Thinking 도입 temperature 파라미터 폐지 Bedrock 엔터프라이즈 인프라 코드 3줄로 시작

64.3%가 뭔데?

SWE-bench라는 벤치마크가 있어요. 실제 GitHub 오픈소스 레포에서 가져온 버그나 기능 요청을 AI가 얼마나 해결하는지 측정하는 거예요. 그중 SWE-bench Pro는 가장 어려운 버전이에요 — 유명 오픈소스 프로젝트의 실제 프로덕션 이슈를 다뤄요. "코딩 에이전트가 현실에서 얼마나 쓸만한가"를 측정하는 가장 현실적인 기준이에요.

Opus 4.7은 여기서 64.3%를 찍었어요. 전작 Opus 4.6은 53.4%였으니까 10.9%p 개선이에요. GPT-5.4(57.7%)와 비교하면 6.6%p 앞서고, Gemini 3.1 Pro(54.2%)와는 10.1%p 차이가 나요. 코딩 에이전트를 만들거나 쓰고 있다면, 이 차이가 체감상으로도 꽤 커요.

64.3%
SWE-bench Pro (Opus 4.7)
87.6%
SWE-bench Verified
77.3%
MCP-Atlas 툴 사용 (최고)

코딩만이 아니에요. 툴 사용 능력을 측정하는 MCP-Atlas에서도 77.3%로 GPT-5.4(75.3%)와 Gemini(73.9%)를 앞섰어요. AI 에이전트가 외부 툴을 얼마나 잘 다루는지의 척도인데, 멀티 에이전트 워크플로우 구축에 직결되는 지표예요. 다만 웹 리서치 지표인 BrowseComp는 79.3%로, 4.6의 83.7%보다 소폭 후퇴했어요. 코딩과 툴 사용에 집중했고, 웹 검색 쪽에서 트레이드오프가 있었다는 거예요.

비전 능력도 확 달라졌어요. 지원 이미지 해상도가 최대 2,576픽셀(장변 기준)로 올라갔어요 — 이전 모델 대비 3배 이상이에요. UI 스크린샷 분석, 복잡한 다이어그램 읽기, 밀도 높은 문서 처리에 직접 영향을 줘요. CharXiv 비주얼 추론 점수도 82.1%로 이전(69.1%)보다 13포인트 올랐어요.

뭐가 달라진 건데?

Opus 4.7이 기술적으로 가장 크게 바뀐 건 Adaptive Thinking이에요. Opus 4.6까지는 thinking.type: "enabled"budget_tokens를 직접 설정해야 했어요. "이 작업엔 최대 1000 토큰 생각해", "저 작업엔 5000 토큰 써" 하고 개발자가 수동으로 조절하던 방식이에요. 4.7에서는 이게 사라졌어요.

4.7은 thinking.type: "adaptive" 하나로 끝이에요. 모델이 작업 복잡도를 스스로 판단해서 추론 토큰을 알아서 배분해요. 단순한 질문엔 토큰을 아끼고, 복잡한 리팩토링 작업엔 깊이 파고드는 구조예요. budget_tokens 튜닝 없이 자동으로 최적화돼요.

Opus 4.6 Opus 4.7
추론 설정 thinking.type: "enabled" + budget_tokens 수동 thinking.type: "adaptive" 하나로 완료
temperature/top_p 직접 조절 가능 지원 안 함 — 파라미터 제거 필요
SWE-bench Pro 53.4% 64.3% (+10.9%p)
이미지 해상도 이전 수준 최대 2,576px 장변 (3배 이상)
프롬프트 캐싱 TTL 5분 5분 · 1시간 선택 가능
비전 추론 (CharXiv) 69.1% 82.1% (+13%p)

4.6에서 마이그레이션 시 주의

Opus 4.6 코드를 그대로 4.7에 연결하면 400 에러가 나요. thinking.type"adaptive"로 바꾸고, temperature · top_p · top_k 파라미터를 완전히 제거해야 해요. budget_tokens도 사용 불가 — Adaptive Thinking이 자동으로 대체해요.

가격은 그대로예요. 입력 토큰 $5/M, 출력 토큰 $25/M — Opus 4.6과 동일해요. 단, 새로운 토크나이저가 적용되면서 동일 콘텐츠의 토큰 카운트가 1.0~1.35배 증가할 수 있어요. 실제 비용이 소폭 올라갈 수 있다는 점 참고하세요.

핵심만 정리: Bedrock에서 시작하는 법

  1. AWS 계정 + Bedrock API 키 준비
    Amazon Bedrock 콘솔에서 장기 API 키를 발급받아요. AWS_BEARER_TOKEN_BEDROCK 환경변수로 설정하면 돼요.
  2. SDK 설치
    Messages API 방식: pip install -U "anthropic[bedrock]". Converse/Invoke API 방식: pip install boto3. 두 방법 중 하나를 선택해요.
  3. 첫 요청 보내기
    모델 ID는 anthropic.claude-opus-4-7, 리전은 us-east-1이 기본이에요. thinking 파라미터는 반드시 {"type": "adaptive"}만 사용해요 — budget_tokens나 enabled는 400 에러.
  4. 프롬프트 캐싱으로 비용 최적화
    반복되는 시스템 프롬프트나 문서는 캐시 체크포인트(최소 4,096 토큰)를 설정해요. 5분 · 1시간 TTL을 선택할 수 있고, 반복 호출 비용을 크게 줄일 수 있어요.
  5. Geo 추론으로 지연 최소화
    한국에서 사용한다면 jp.anthropic.claude-opus-4-7(도쿄·오사카 라우팅)이나 global.anthropic.claude-opus-4-7을 사용하면 자동으로 최적 리전으로 연결돼요.

Bedrock의 엔터프라이즈 차별점

Bedrock의 next-generation inference engine은 고객 데이터에 대한 오퍼레이터 접근을 차단해요. AWS 생태계에서 이미 VPC, IAM, CloudWatch를 쓰고 있다면, 별도 보안 설정 없이 엔터프라이즈 수준의 데이터 격리를 그대로 얻을 수 있어요.