www-cdn.anthropic.com

9개 중 7개에서 GPT-5.5를 앞섰다 — Claude Opus 4.8와 Dynamic Workflows가 실제로 달라진 것

Claude Opus 4.8, Dynamic Workflows, 서브에이전트, GPT-5.5 비교, ARC-AGI-3AI 도구 실전기

Introducing Claude Opus 4.8

Claude Opus 4.8 vs GPT-5.5: Benchmarks, Tests, and Which to Choose

Analyzing GPT-5.5 & Opus 4.7 with ARC-AGI-3

에이전트에게 "이 레포 전체 마이그레이션해줘"라고 시켜봤어요? 한 50% 가다가 컨텍스트 초과, 방향 잃음, 파일 충돌 — 에이전트 코딩의 반복되는 벽이에요.

Claude Opus 4.8은 그 벽에 에이전트 1,000개를 동시에 던집니다. 2026년 5월 28일 출시된 Dynamic Workflows는 Claude가 JS 오케스트레이션 스크립트를 직접 작성하고, 런타임이 수백 개 서브에이전트를 백그라운드에서 병렬 실행해요. 수십만 줄 코드베이스를 킥오프부터 머지까지 처리하는 게 지금 가능합니다.

3초 요약

단일 에이전트 한계 → Dynamic Workflows → 1,000 에이전트 병렬 → 코드베이스 전체 자동화 → GPT-5.5 7:2 앞섬

에이전트가 막히는 이유, Workflows가 푼 방식

기존 Claude Code의 서브에이전트는 "메인이 심부름을 시키는" 구조였어요. 메인 에이전트가 컨텍스트를 다 들고 있고, 보조 에이전트는 결과만 보고하는 거죠. 수십만 줄 코드베이스가 들어오면 메인이 먼저 터집니다.

Dynamic Workflows는 완전히 다른 구조예요. Claude가 작업을 분석해서 JS 오케스트레이션 스크립트를 직접 작성하고, 런타임이 이 스크립트를 백그라운드에서 실행하면서 에이전트를 동적으로 생성해요. 각 에이전트는 좁은 범위를 독립적으로 처리하고, 일부 에이전트는 다른 에이전트의 결과를 검증(refute)하는 역할까지 맡아요. 답이 수렴할 때까지 반복합니다.

	기존 서브에이전트	Dynamic Workflows
컨텍스트 관리	메인이 모두 보유 → 쉽게 초과	에이전트별 좁은 범위 독립 처리
작업 규모	단일 파일 ~ 수천 줄	수십만 줄 코드베이스
오케스트레이션	사람이 역할 명시	Claude가 JS 스크립트 자동 작성
동시 에이전트	제한적	최대 16개 동시, 총 1,000개
자가 검증	없음	검증 에이전트가 자동 반박 후 수렴

Anthropic이 실제 증명한 케이스는 수십만 줄 코드베이스를 킥오프부터 기존 테스트 스위트 통과까지 자동 처리하는 거예요. 코드베이스 마이그레이션처럼 범위가 넓고 반복적인 작업에서 이 구조가 강력한 이유예요.

플랜 주의사항

Dynamic Workflows는 Max, Team, Enterprise 플랜에서만 사용 가능해요. Max/Team 플랜은 기본 활성화돼 있어요.

GPT-5.5와 붙어보니 — 숫자가 말하는 것

Opus 4.8이 나오면서 GPT-5.5와의 비교 데이터가 쌓였어요. 9개 주요 벤치마크 중 Opus 4.8이 7개에서 앞섰습니다.

69.2%

SWE-bench Pro (vs GPT-5.5 58.6%)

1.5%

ARC-AGI-3 최고점 (GPT-5.5의 3배)

68.1%

GraphWalks BFS 1M (vs GPT-5.5 45.4%)

특히 장문 컨텍스트에서 격차가 크게 벌어져요. GraphWalks BFS 1M 테스트(100만 토큰 컨텍스트 추론)에서 Opus 4.8이 68.1%, GPT-5.5가 45.4%로 23포인트 차이가 났습니다. Dynamic Workflows처럼 대규모 컨텍스트가 필요한 작업에서 Opus 4.8의 우위가 가장 극명하게 드러나는 거예요.

벤치마크	GPT-5.5	Claude Opus 4.8
SWE-bench Pro (코딩)	58.6%	69.2%
Humanity's Last Exam (도구 포함)	52.2%	57.9%
ARC-AGI-3 (추상 추론)	0.43%	1.5%
OSWorld-Verified (컴퓨터 사용)	78.7%	83.4%
GraphWalks BFS 1M (장문 컨텍스트)	45.4%	68.1%
Terminal-Bench 2.0 (터미널 작업)	78.2%	74.6%

터미널 집약적인 셸 작업은 GPT-5.5가 여전히 3.6포인트 앞서요. 코딩·추론·컴퓨터 제어가 핵심이면 Opus 4.8, 터미널 자동화가 메인이면 GPT-5.5도 고려할 수 있어요.

ARC-AGI-3에서 Opus 4.8이 1.5%에 도달한 건 단순 점수 상승이 아니에요. ARC Prize 분석에 따르면 Opus 4.8은 Opus 4.7이 픽셀 단위로 봤던 환경을 객체로 인식하기 시작했어요. 추상화 레벨 자체가 달라진 거예요.

지금 바로 시작하는 법

플랜 확인
claude.com/pricing에서 Max, Team, Enterprise 중 하나인지 확인하세요. Personal/Pro 플랜은 Dynamic Workflows 미지원이에요. Max 5x가 월 $100으로 시작점이에요.
Claude Code 최신 버전 업데이트
npm install -g @anthropic-ai/claude-code로 최신 버전을 받으세요. Dynamic Workflows는 Max/Team에서 기본 활성화라 별도 설정 없이 바로 써요.
코드베이스 규모 작업 그대로 던지기
프롬프트에서 작업을 쪼개지 마세요. "이 레포 전체를 Python 3.12로 마이그레이션해줘"처럼 코드베이스 규모 지시를 그대로 입력하면 Claude가 오케스트레이션 스크립트를 자동 작성해요.
Effort Control 활용
claude.ai에서 작업 난이도에 맞게 effort 레벨을 선택할 수 있어요. 복잡한 마이그레이션은 Extra로 설정하면 더 깊이 파고들어요.
비용 모니터링
API 종량제 기준 입력 $5/백만 토큰, 출력 $25/백만 토큰이에요. Fast Mode는 각각 $10/$50이지만 3배 빠르고, 이전 모델 Fast Mode보다는 3배 저렴해요. 처음엔 일부 파일에 먼저 테스트하는 걸 추천해요.

🔗

더 깊이 파고 싶다면

Introducing Claude Opus 4.8

Dynamic Workflows, Effort Control, API 변경 사항 등 공식 상세 정보가 전부 있어요.

What Is ARC-AGI-3? How Claude Opus 4.8 Achieved State-of-the-Art Fluid Intelligence

Opus 4.8이 역대 최고 ARC-AGI-3 스코어를 낸 이유, 추상화 레벨 변화 분석이에요.

Claude Opus 4.8 vs GPT-5.5: Benchmarks, Tests, and Which to Choose

9개 벤치마크를 실제 테스트한 가장 상세한 비교 분석이에요. 작업 유형별 모델 선택 기준을 잡기 좋아요.

Anthropic releases Claude Opus 4.8 with new dynamic workflow tool

Anthropic 인터뷰와 Bridgewater Associates 실사용 소감이 담긴 출시 당일 커버리지예요.

Claude Opus 4.8 — The New #1 AI Model

Artificial Analysis Intelligence Index 61.4 vs GPT-5.5 60.2, 복합 지수 기준 1위 분석이에요.

Anthropic Ships Claude Opus 4.8 Alongside Dynamic Workflows, Capped at 1,000 Subagents

기술 아키텍처와 플랜별 차이를 상세히 정리한 테크 분석이에요.

자주 묻는 질문

Dynamic Workflows와 기존 Agent Teams의 차이가 뭔가요?

Agent Teams(Opus 4.6)는 사람이 역할을 명시하고 팀원 에이전트가 서로 소통하는 구조였어요. Dynamic Workflows(Opus 4.8)는 Claude가 오케스트레이션 스크립트를 자동으로 작성하고 런타임이 실행하는 방식이라, 사람 개입 없이 수백~수천 개 에이전트를 자율 운영해요. 규모와 자동화 수준이 완전히 다릅니다.

Personal이나 Pro 플랜이면 Dynamic Workflows를 아예 못 쓰나요?

Dynamic Workflows는 현재 Max, Team, Enterprise 플랜에서만 지원돼요. 단, Opus 4.8 모델 자체는 API를 통해 모든 플랜에서 접근 가능해요. Dynamic Workflows 없이도 Opus 4.8의 코딩·추론 성능 개선은 그대로 쓸 수 있어요.

ARC-AGI-3 점수 1.5%가 너무 낮아 보이는데, 실제로 의미 있나요?

ARC-AGI-3는 135개 완전히 낯선 환경을 규칙 없이 탐색해야 해요. 절대 점수가 아니라 상대 지표예요. GPT-5.5가 0.43%, Opus 4.7이 0.18%였는데 Opus 4.8이 1.5%를 찍은 건 추상화 능력의 질적 도약이에요. ARC Prize 분석은 Opus 4.8이 환경을 픽셀이 아닌 객체로 인식하기 시작했다고 밝혔어요.

Fast Mode는 언제 쓰는 게 좋나요?

빠른 응답이 필요한 반복 작업이나 초안 생성에 써요. Fast Mode는 표준 대비 2배 비용(입력 $10, 출력 $50/백만 토큰)이지만 속도가 3배 빠르고, 이전 모델 Fast Mode보다는 3배 저렴해졌어요. 최종 검토나 복잡한 추론이 필요한 작업엔 일반 모드를 추천해요.