images.unsplash.com

고삐를 채웠더니 에이전트가 더 잘한다 — Statewright 상태 머신의 역설

AI 에이전트 신뢰성, 상태 머신, Statewright, MCP 도구 제어AI 워크플로우

Show HN: Statewright – Visual state machines that make AI agents reliable

Building Effective Agents — Anthropic Engineering

XState Documentation — State Machines and Statecharts

에이전트한테 도구를 많이 줄수록 더 잘할 것 같잖아요. 근데 현실은 정반대였어요. 단계마다 쓸 수 있는 도구를 물리적으로 제한했더니, 13B짜리 작은 모델이 자유로운 대형 모델을 이겼어요.

3초 요약

에이전트 실수 원인 파악 → 단계(State) 정의 → 도구 접근 물리적 제한 → 소형 모델로 대형 모델 성능 → 비용 최대 80% 절감

에이전트는 왜 자꾸 실수하는 건데?

코딩 에이전트를 써봤다면 아실 거예요. 잘 될 때는 진짜 잘 되는데, 한번 삐끗하면 완전히 딴 방향으로 가버리거든요. 이게 단순히 모델이 덜 똑똑해서 생기는 문제일까요?

AI 연구자 Chip Huyen이 이 문제를 수학적으로 분석했는데요. 에이전트가 각 단계에서 95% 정확도를 유지한다고 해도, 10단계가 쌓이면 전체 성공률은 60%로 떨어지고, 100단계면 0.6%까지 곤두박질쳐요. 단계가 늘어날수록 오류가 기하급수적으로 쌓이는 구조인 거예요.

Anthropic도 이 문제를 직접 인정했어요. "에이전트의 자율적 특성은 더 높은 비용과 오류 누적의 위험성을 만든다"고요. 그래서 대부분의 솔루션은 이렇게 반응해요 — 더 큰 모델을 써라, 컨텍스트 창을 늘려라. Statewright는 정반대 방향으로 걷고 있어요. 더 작은 문제 공간을 만들어라.

핵심 아이디어는 단순해요. 에이전트가 어떤 단계(State)에 있는지에 따라, 접근할 수 있는 도구를 물리적으로 제한하는 거예요. 계획 단계에서는 읽기 전용 도구만, 구현 단계에서는 편집 도구만, 테스트 단계에서는 bash 명령만. 프롬프트로 "이렇게 해줘"라고 부탁하는 게 아니라, 프로토콜 레벨에서 물리적으로 차단하는 거예요.

핵심 개념: "에이전트는 제안이고, 상태는 법이다"

Statewright 창시자 Ben Cochran의 말이에요. 모델이 상태 규칙을 무시하고 엉뚱한 도구를 쓰려 하면, 프롬프트로 막는 게 아니라 프로토콜 자체가 거부해요. 권고가 아닌 구조적 강제예요.

뭐가 얼마나 달라지는 건데?

이미 비슷한 걸 하는 도구들이 있잖아요 — LangGraph, XState, Claude Code. 어떻게 다른지 봐볼게요.

	기존 프레임워크	Statewright
도구 접근 제어	프롬프트 기반 권고	상태 머신 물리적 강제
규칙 위반 시	모델이 무시 가능	프로토콜 레벨 차단
모델 라우팅	수동 설정	단계별 자동 라우팅
입력 토큰 최적화	전체 도구 목록 노출	현재 상태 도구만
비용 절감 가능성	—	멀티페이즈 기준 최대 80%

LangGraph는 에이전트를 그래프 노드로 연결해서 전문화된 역할을 맡기는 방식이에요. 전문화가 성능을 높인다는 철학은 비슷한데, LangGraph는 "어떤 도구를 써야 한다"는 걸 프롬프트로 안내할 뿐 물리적으로 막지는 않아요. Claude Code와 비교하면 더 재밌는데요 — Claude Code는 작업 시작 시 35,000토큰 이상의 컨텍스트로 출발해요. Statewright는 현재 상태에서 필요한 도구만 노출하니까, 입력 토큰이 대폭 줄어들고 캐시 효율도 올라가요.

그리고 가장 반직관적인 결과가 이거예요. 13B 파라미터 이상 모델이라면, 자유롭게 돌리는 대형 모델보다 Statewright로 제약된 작은 모델이 일관되게 더 좋은 성과를 냈어요. Qwen-coder, GPT-OSS, Gemma4는 물론 Haiku, Sonnet, Opus까지 여러 모델 패밀리에서 동일한 패턴이 확인됐다고 해요. 같은 시기에 유사한 접근을 한 Forge라는 프로젝트도 공개됐는데, 두 프로젝트가 독립적으로 같은 결론에 도달했다는 게 이 방향이 틀리지 않았다는 신호 같아요.

핵심만 정리: 시작하는 법

설치 — MCP 통합으로 에디터에 연결
Claude Code, Codex, Oh-My-Codex 등 MCP 지원 에디터에서 Statewright 플러그인을 설치해요. 핵심 엔진과 에이전트 크레이트는 Apache 2.0 오픈소스라 무료로 사용할 수 있어요.
워크플로우 상태 정의
YAML이나 JSON으로 상태(state)와 전환(transition) 조건을 정의해요. "planning → implementation → testing"처럼 단계를 명시하고, 각 단계의 가드(guard) 조건을 설정해요.
도구 접근 권한 할당
각 상태에 허용할 도구를 지정해요. planning 상태에는 파일 읽기만, implementation에는 편집 도구까지, testing에는 bash 실행만. 이 제약은 프로토콜 레벨에서 강제돼요 — 프롬프트 부탁이 아니에요.
단계별 모델 라우팅 설정 (선택)
비용을 줄이고 싶다면, 계획 단계는 Haiku, 구현 단계는 Sonnet, 검토 단계는 Opus로 자동 라우팅하도록 설정해요. 멀티페이즈 워크플로우에서 최대 80% 비용 절감이 가능해요.
실행 및 감사 로그 확인
Statewright는 모든 상태 전환과 도구 접근 시도를 로그로 남겨요. 어떤 단계에서 어떤 시도가 차단됐는지 완전히 추적 가능해서 SOC 2 같은 감사 요구사항에도 대응할 수 있어요.

~80%

멀티페이즈 워크플로우 비용 절감 (단계별 모델 라우팅 적용 시)

13B+

이 파라미터 이상이면 대형 모델 대비 일관된 성능 개선 확인

Apache 2.0

핵심 엔진 + 에이전트 크레이트 라이선스 (완전 오픈소스)

🔗

더 깊이 파고 싶다면

Show HN: Statewright Discussion

창시자 Ben Cochran과의 Q&A. 라이선스 정책, 기술 설계 의도, LangGraph·XState와의 차이점을 직접 물어보고 받은 답변들 가득해요.

Building Effective Agents — Anthropic

에이전트 신뢰성 문제의 구조적 원인과 Anthropic이 권장하는 설계 원칙. 왜 단순함이 복잡한 에이전트보다 먼저인지 설명해요.

LangGraph: Multi-Agent Workflows

그래프 기반 멀티에이전트 오케스트레이션의 대표 프레임워크. Statewright와 접근 방식이 어떻게 다른지 비교해보기 좋아요.

Agents — Chip Huyen

AI 에이전트 신뢰성 문제를 수학적으로 분석한 글. "95% 정확도 → 100단계 후 0.6% 성공률" 계산이 여기서 나왔어요.

XState Documentation

UI 상태 관리용 상태 머신의 레퍼런스. Statewright가 에이전트용 도구 접근 제어로 이를 어떻게 특화했는지 차이를 이해하는 데 도움이 돼요.

자주 묻는 질문

작은 모델(7~13B)로도 효과가 있나요?

Statewright 테스트 결과에서는 13B 파라미터 이상부터 일관된 성능 개선이 확인됐어요. 13B 미만 모델에서는 상태 머신의 지시를 따르는 능력 자체가 불안정해서 효과가 제한적일 수 있어요.

LangGraph나 LangChain 프로젝트에서 마이그레이션하기 어렵나요?

Statewright는 독립 실행형 프레임워크라 기존 LangChain/LangGraph 코드를 직접 포팅하는 건 아니에요. 워크플로우를 상태 머신으로 다시 모델링해야 해서 설계 단계의 리팩터링이 필요해요. 처음 시작하는 프로젝트나 기존 프로젝트의 새 모듈에 적용하는 게 현실적이에요.

코딩 에이전트 말고 다른 용도로도 쓸 수 있나요?

네. 콘텐츠 파이프라인(리서치→초안→리뷰→발행), SOC 2 준수 감사, 기업 변경 관리(계획→검토→구현→승인→배포) 등에서 실제로 사용되고 있어요. 단계별 감사 로그가 필요한 프로세스에 특히 적합해요.

FSL 1.1 라이선스 부분은 어떻게 해석해야 하나요?

핵심 엔진과 에이전트 크레이트는 Apache 2.0으로 완전 오픈소스예요. 플러그인과 게이트웨이 부분이 FSL 1.1인데, 3년 후 Apache 2.0으로 전환돼요. 솔로 개발자와 연구자에게는 특허 적용 예외도 명시돼 있어요.

Claude Code에서 Statewright를 함께 쓰면 충돌이 생기지 않나요?

Statewright는 MCP(Model Context Protocol) 통합으로 Claude Code와 함께 동작하도록 설계됐어요. Claude Code가 실행 시 전체 도구 목록을 필터링하고(캐시 영향 없음), Statewright가 상태별 도구 접근을 제어하는 방식이라 충돌보다는 보완 관계에 가까워요.