"AI 에이전트 만들기"는 다 끝났어요. 이제 진짜 문제는 "이걸 어떻게 운영하느냐"예요. 60개가 넘는 엔터프라이즈 배포를 돌려본 Cohorte AI 팀이 매번 똑같이 부딪힌 6가지 거버넌스 문제를 6개 라이브러리로 묶어 오픈소스로 풀어버렸어요.

3초 요약
정책(Guardrails) 인증(Agent Auth) 컨텍스트 라우팅 지식 오케스트레이션 관찰성 + 킬스위치 신뢰도 인증(TrustGate)

이게 대체 무슨 스택인데?

Cohorte AI는 60개 이상 기업 환경에 에이전트를 직접 배포해온 팀이에요. 그 과정에서 매번 같은 벽에 부딪혔다고 해요 — 모델 성능 문제가 아니라, 모델을 둘러싼 시스템이 흐릿해서 프로덕션에서 무너지는 문제요.

Hacker News에서 "Show HN"으로 공개된 이 스택은 GitHub의 Cohorte-ai 조직에 6개 레포로 올라와 있어요. 전부 Python, Apache 2.0 라이선스. LangGraph나 CrewAI 같은 오케스트레이션 프레임워크를 대체하는 게 아니라, 그 위에 얹는 거버넌스 레이어예요.

  1. Guardrails — 정책 레이어
    YAML로 입력·출력·툴 호출·승인 정책을 선언. 프롬프트 인젝션 차단, PII 자동 redact 같은 룰을 코드가 아닌 정책 파일로 관리해요.
  2. Agent Auth — 인증/인가 레이어
    "이 사용자가 X를 할 수 있는가?"가 아니라 "이 에이전트가 이 사용자를 대신해서 지금 이 리소스에 X를 할 수 있는가?"를 답하는 위임 권한 시스템.
  3. Context Router — 검색 라우팅
    관련성 점수만 가지고는 부족해요. 권한·토큰 예산·설명가능성을 묶어서 어떤 컨텍스트를 끌어올지 결정.
  4. Context Kubernetes — 지식 오케스트레이션
    엔터프라이즈 지식을 "문서 검색 결과"가 아니라 "거버넌스되는 인프라"로 다뤄요. 권한·신선도·승인 정책을 선언적 YAML로 관리.
  5. Agent Monitor — 관찰성 + 킬스위치
    레이턴시·처리량 같은 일반 옵저버빌리티를 넘어, 비용 폭증·거부율·승인 병목을 감지하고 임계치 넘으면 자동으로 에이전트를 죽여요.
  6. TrustGate — 신뢰도 인증
    "느낌상 잘 돌아간다"가 아니라 "통계적 보장이 있는 신뢰도 X%"로 배포 게이트를 만들어요. self-consistency 샘플링 + conformal calibration.

핵심 통찰은 단순해요. 에이전트는 모델이 약해서 실패하는 게 아니라, 모델 주변의 시스템이 모호해서 실패한다는 거예요. Cohorte 팀이 60개 배포에서 발견한 패턴이 그거예요. 데모에서 잘 도는 워크플로우가 프로덕션에서 무너지는 이유는 정책·권한·컨텍스트·관찰성·신뢰도라는 다섯 가지 질문에 답이 없기 때문이에요.

왜 지금 이게 중요한가

OWASP가 2025년 12월에 처음으로 "Agentic AI Top 10"을 발표했어요. 목표 하이재킹, 툴 오용, 신원 도용, 메모리 오염, 연쇄 실패, 로그 에이전트 — 이게 다 "에이전트 운영" 문제예요. EU AI Act는 2026년 8월부터 고위험 AI 의무를 강제하고, Colorado AI Act도 2026년 6월부터 시행돼요. 인프라가 규제를 따라잡지 못하고 있어요.

오케스트레이션 프레임워크랑 뭐가 다른 건데?

이게 가장 헷갈리는 지점이에요. LangGraph·CrewAI·OpenAI Agents SDK 같은 도구도 이미 있는데, 또 다른 프레임워크가 필요하냐는 질문이 자연스럽거든요. 답은 "이건 프레임워크가 아니라 거버넌스 레이어"예요.

오케스트레이션 프레임워크 (LangGraph 등)거버넌스 스택 (Cohorte 6-library)
역할워크플로우 빌딩워크플로우의 통제 가능성 보장
주된 질문"에이전트가 뭘 하는가""에이전트가 뭘 해도 되는가"
정책 관리코드 안에 분산선언적 YAML 한 곳에서
인증/인가대부분 사람용 IAM 그대로 차용에이전트 위임 모델 전용 설계
관찰성trace + metric (사후 디버깅)킬스위치 + 비용 임계치 (런타임 통제)
신뢰도테스트 케이스 통과 여부통계적 보장이 있는 신뢰도 점수
배포 시점"느낌상 괜찮으면 배포""신뢰도 90% 이상이면 배포" (CI/CD 게이트)

실제로 이 스택만 따로 쓰는 게 아니라, 기존 오케스트레이터 + 거버넌스 레이어로 조합해서 쓰는 게 본 설계 의도예요. 예를 들어 사용자가 "이 계약서 요약하고 구매팀에 추천해줘"라고 했을 때 — Guardrails가 정책을 검사하고, Agent Auth가 위임 권한을 확인하고, Context Router가 관련 소스를 고르고, Context Kubernetes가 지식 전달을 통제하고, 워크플로우는 LangGraph가 실행하고, Agent Monitor가 비용·이상 징후를 추적하고, TrustGate가 이 워크플로우 클래스의 신뢰도 인증을 백업해요.

이게 데모와 프로덕션의 차이예요. 한쪽은 데모 미팅에서 박수받고, 다른 한쪽은 리뷰 미팅을 통과해요.

60+
Cohorte의 엔터프라이즈 배포 경험
6개
거버넌스 도메인 라이브러리
95%
엔터프라이즈 AI 파일럿이 ROI 0인 비율 (MIT)

흥미로운 건 비슷한 발상이 동시에 여러 곳에서 터져나오고 있다는 거예요. Microsoft도 2026년 4월에 Agent Governance Toolkit을 MIT 라이선스로 오픈소스로 풀었어요. OS 커널·서비스 메시·SRE 패턴을 에이전트에 적용한 7개 패키지인데, 정책 엔진이 0.1ms 미만 지연으로 모든 에이전트 액션을 가로채요. OWASP Agentic Top 10의 10가지 위험 카테고리를 전부 매핑한 첫 번째 툴킷이에요.

SailPoint·Okta 같은 전통 IAM 벤더들도 "에이전트 신원 거버넌스" 프레임워크를 잇따라 발표하고 있고요. 이건 우연이 아니에요. 에이전트 운영(Agent Ops)이 별도의 인프라 레이어로 굳어가는 중이라는 신호예요.

핵심만 정리: 시작하는 법

  1. 제일 아픈 거버넌스 영역 1개 고르기
    6개 다 깔지 마세요. 권한 문제가 자주 터지면 Agent Auth, 비용이 새면 Agent Monitor, 출력이 들쭉날쭉하면 TrustGate부터. Cohorte 팀도 "incremental adoption"을 명시적으로 권장해요.
  2. YAML로 정책 한 줄 써보기
    예를 들어 Guardrails라면 block-prompt-injection 룰 하나만 추가해서 "ignore previous instructions" 같은 패턴을 거르는 것부터 시작. pip install theaios-guardrails 후 30분이면 돼요.
  3. 킬스위치 임계치를 합의하기
    Agent Monitor의 핵심은 cost_per_minute > 5.0이면 kill 같은 단순한 규칙이에요. 이걸 엔지니어 혼자 정하지 말고 PM·재무와 함께 합의하는 게 거버넌스의 본질이에요.
  4. 배포 게이트로 신뢰도 임계 박기
    TrustGate는 trustgate certify --min-reliability 90 --yes 한 줄로 CI/CD에 꽂혀요. 90% 미만이면 빌드 실패. 이게 "느낌"을 "수치"로 바꾸는 출발점이에요.
  5. Microsoft 툴킷도 비교 검토
    같은 문제를 푸는 Microsoft Agent Governance Toolkit이 OWASP Top 10을 명시적으로 매핑하고 LangChain·CrewAI·LangGraph 등 통합 어댑터를 제공해요. 둘 다 MIT/Apache 2.0이니 라이선스 부담은 없어요. 팀 스택에 맞는 쪽으로.

주의: 이게 만능이 아닌 이유

Atlan의 정리에 따르면 에이전트 가드레일은 5개 레이어가 다 있어야 작동해요 — 데이터/컨텍스트, 디자인 타임 거버넌스, 런타임 가드, 신원/접근, 휴먼 오버사이트. Cohorte 스택은 런타임 + 일부 디자인 타임을 커버하는 거고, "AI-ready 데이터" 자체가 없으면 그 위에 뭘 올려도 환각해요. Gartner는 60%의 AI 프로젝트가 AI-ready 데이터가 없어서 폐기될 거라고 예측했어요. 거버넌스 스택은 그 위에 얹는 거지, 데이터 문제를 자동으로 해결해주지 않아요.