"경쟁사 3곳 가격 조사해서 슬라이드로 정리해줘." 예전 같으면 탭 30개 열고 두 시간 갈았을 일이에요. 이제는 ChatGPT 대화창에 한 줄 던지고 커피 마시러 가면 돼요. 2026년 3월 5일, GPT-5.4가 ChatGPT Agent에 탑재되면서 '브라우저는 조작하지만 분석은 못 하던' 반쪽짜리 AI가 끝났거든요. 따로 놀던 Operator(웹 조작)와 Deep Research(심층 분석)가 한 모델 안에 합쳐졌고, 결과는 단순한 합이 아니라 곱이에요.

3초 요약
GPT-5.4 탑재 Operator+Deep Research 통합 가상 컴퓨터에서 브라우저·터미널·API 자유자재 한 프롬프트로 멀티스텝 업무 완료

왜 둘을 합치니 '1+1=3'이 됐나

먼저 그림부터 맞출게요. 2025년 1월, OpenAI는 두 가지를 따로 내놨어요. 하나는 Operator — AI가 브라우저를 직접 클릭하고 스크롤하는 서비스. 다른 하나는 Deep Research — 수십 개 소스를 읽고 종합 보고서를 만드는 리서치 특화 기능이었죠. 문제는 둘이 서로의 약점을 그대로 노출했다는 거예요.

Operator는 클릭은 잘했지만 긴 문서를 읽고 분석하는 데 서툴렀고, Deep Research는 분석의 달인이었지만 로그인이 필요한 사이트엔 발도 못 들였어요. 그래서 2025년 7월, OpenAI는 두 팀을 합쳐 ChatGPT Agent를 만들었고, 2026년 3월 GPT-5.4를 얹으면서 비로소 진짜 물건이 됐어요.

Sequoia Capital은 이 통합을 "1+1=3"이라고 표현했어요. Operator의 시각적 웹 조작과 Deep Research의 텍스트 종합 능력이 합쳐지니, 각자는 못 하던 일을 해내거든요.

"경쟁사 3곳 분석해서 슬라이드 덱 만들어줘"가 왜 한 번에 되는지 뜯어보면 명확해요. 웹사이트를 직접 돌며 데이터를 긁고(Operator), 긁은 정보를 종합 분석하고(Deep Research), 편집 가능한 프레젠테이션 파일로 뽑아내는(GPT-5.4의 새 능력) 전 과정이 하나의 상태를 공유하며 끊김 없이 이어져요. 텍스트 브라우저, 비주얼 브라우저, 터미널, API 연동 — 도구가 바뀌어도 맥락이 끊기지 않는 게 핵심이에요.

그 바탕엔 네이티브 컴퓨터 사용(Computer Use)이 있어요. GPT-5.4는 화면을 직접 해석하고 마우스·키보드를 제어해 사람이 컴퓨터로 하는 일을 그대로 따라 해요. 추론·코딩·에이전트 워크플로우를 하나의 모델에 통합한 OpenAI 최초의 프론티어 모델이고, ChatGPT·API·Codex에 동시 출시된 것도 처음이에요.

75%
OSWorld 벤치마크 (사람 72.4%)
83%
GDPval 전문가 비교 일치율
272K
기본 컨텍스트 윈도우 (최대 1M)

OSWorld-Verified 숫자가 상징적이에요. 실제 데스크톱 환경에서 작업을 끝내는 능력을 재는 벤치마크인데, GPT-5.4가 75%로 평균적인 사람(72.4%)을 넘었어요. "AI가 컴퓨터를 사람보다 잘 다룬다"가 처음으로 숫자로 증명된 셈이죠.

그래서 '뭘' 시킬 수 있나 — 한 프롬프트로 끝나는 일들

성능 얘기는 여기까지. 실제로 손에 잡히는 건 "어떤 명령을 한 줄로 넘길 수 있느냐"예요. 성공률 높은 조합은 거의 리서치 + 정리 패턴이에요. 그대로 복사해 써도 되게 정리했어요.

  • 경쟁사 비교 → 덱: "경쟁사 A·B·C 가격과 핵심 기능 조사해서 비교 슬라이드 덱 만들어줘." 웹을 직접 돌며 수집 → 종합 → 편집 가능한 PPT 파일로 출력.
  • 뉴스 → 요약표: "이번 주 AI 뉴스 5개 찾아서 출처 링크 포함 요약표로 만들어줘." Deep Research 강점이 그대로 살아나는 작업이에요.
  • 내 캘린더 → 브리핑: "내 구글 캘린더 보고 다음 주 미팅별 사전 브리핑 만들어줘." 앱 커넥터를 연결해야 가능한 개인화 작업이에요.
  • 가격 조사 → 스프레드시트: "경쟁사 3곳 요금제 비교해서 편집 가능한 스프레드시트로 정리해줘." 결과가 캡처가 아니라 손볼 수 있는 파일로 나와요.
  • 반복 자동화: "매주 월요일 아침, 경쟁사 뉴스 브리핑"처럼 예약 걸어두기. 완료된 작업의 시계 아이콘으로 매일·매주·매월 반복 가능.

이게 가능해진 이유는, 작업이 어렵게 학습된 게 아니라 스스로 학습됐기 때문이에요. Sequoia 팟캐스트에서 OpenAI 연구원들이 밝힌 비하인드가 흥미로워요. 에이전트를 만든 팀은 놀랍도록 작았대요 — Deep Research 연구원 3~4명, Operator 연구원 6~8명, 거기에 응용 엔지니어링 팀. 이 소수가 수천 대의 가상 머신에서 강화 학습(RL)을 돌렸는데, 핵심은 "도구 사용 패턴을 사람이 정해주지 않고, 모델이 스스로 최적 전략을 찾게 둔" 거예요. 그래서 처음 보는 사이트에서도 알아서 길을 찾아요.

GPT-5.2 시절과 뭐가 그렇게 달라졌나

"기존 에이전트도 브라우저 조작은 했잖아?" 맞아요. 차이는 "할 수 있다"에서 "잘한다"로 넘어갔다는 데 있어요. 표로 보면 한눈에 들어와요.

이전 (GPT-5.2 기반) 현재 (GPT-5.4 기반)
추론 모델 GPT-5.2 Thinking + o3 GPT-5.4 Thinking 단일 모델
데스크톱 조작 웹 브라우저 위주 네이티브 컴퓨터 사용 (마우스+키보드)
전문가 수준 업무 44개 직종 중 70.9% 일치 44개 직종 중 83.0% 일치 (GDPval)
코딩 기본 코드 생성 GPT-5.3-Codex급 코딩 + 프론트엔드 폴리시
컨텍스트 제한적 272K 기본, 최대 1M 토큰
스프레드시트·PPT 기본 생성 편집 가능한 파일 직접 생성·수정
사고 과정 블랙박스 사고 계획을 미리 보여주고 사용자가 조정 가능

덤으로 정리할 변화 하나 더. 별도 서비스로 굴러가던 operator.chatgpt.com은 수주 내 폐지 예정이에요. 가상 브라우저가 ChatGPT Agent 안에 내장됐거든요. 기존 Operator 사용자는 별도 조치 없이 에이전트 모드로 넘어가면 돼요.

오늘 바로 시작하는 법

요금제만 맞으면 5분이면 첫 작업을 던질 수 있어요.

  1. 요금제 확인
    GPT-5.4 Thinking은 ChatGPT Plus($20/월), Team, Pro($200/월)에서 써요. 에이전트 사용 한도는 Plus 월 40회, Pro 월 400회예요. 최고 성능인 GPT-5.4 Pro는 Pro·Enterprise 전용이고요.
  2. 에이전트 모드 진입
    대화창 하단 도구 드롭다운에서 "agent mode"를 고르거나 /agent를 입력해요. 일반 대화 도중에 중간 전환도 돼요.
  3. 앱 커넥터 연결
    Google Calendar·Gmail·Google Drive·GitHub 등을 연결하면 "내 캘린더 보고 다음 주 미팅 브리핑해줘" 같은 개인화 작업이 풀려요.
  4. 첫 작업은 '리서치+정리'로
    위에서 정리한 프롬프트 중 하나를 그대로 복사해 던져보세요. 가장 성공률 높은 진입로예요.
  5. 반복 예약 걸기
    잘 된 작업의 시계 아이콘을 눌러 매일·매주·매월 자동 실행. "매주 월요일 경쟁사 뉴스 브리핑"부터 자동화해보세요.

맡기기 전에 알아둘 것

많이 좋아졌어도 만능은 아니에요. 에이전트 작업은 여전히 5~30분이 걸리고, 날짜 선택기(datepicker) 같은 단순 UI에서 헤매기도 해요. 웹사이트마다 다른 레이아웃 적응은 아직 도전 과제고요. 결제나 이메일 전송 같은 고위험 작업은 반드시 직접 확인하세요. 처음엔 '되돌릴 수 있는 일'부터 맡기는 게 안전해요.