"경쟁사 3곳 가격 조사해서 슬라이드로 정리해줘." 예전 같으면 탭 30개 열고 두 시간 갈았을 일이에요. 이제는 ChatGPT 대화창에 한 줄 던지고 커피 마시러 가면 돼요. 2026년 3월 5일, GPT-5.4가 ChatGPT Agent에 탑재되면서 '브라우저는 조작하지만 분석은 못 하던' 반쪽짜리 AI가 끝났거든요. 따로 놀던 Operator(웹 조작)와 Deep Research(심층 분석)가 한 모델 안에 합쳐졌고, 결과는 단순한 합이 아니라 곱이에요.
왜 둘을 합치니 '1+1=3'이 됐나
먼저 그림부터 맞출게요. 2025년 1월, OpenAI는 두 가지를 따로 내놨어요. 하나는 Operator — AI가 브라우저를 직접 클릭하고 스크롤하는 서비스. 다른 하나는 Deep Research — 수십 개 소스를 읽고 종합 보고서를 만드는 리서치 특화 기능이었죠. 문제는 둘이 서로의 약점을 그대로 노출했다는 거예요.
Operator는 클릭은 잘했지만 긴 문서를 읽고 분석하는 데 서툴렀고, Deep Research는 분석의 달인이었지만 로그인이 필요한 사이트엔 발도 못 들였어요. 그래서 2025년 7월, OpenAI는 두 팀을 합쳐 ChatGPT Agent를 만들었고, 2026년 3월 GPT-5.4를 얹으면서 비로소 진짜 물건이 됐어요.
Sequoia Capital은 이 통합을 "1+1=3"이라고 표현했어요. Operator의 시각적 웹 조작과 Deep Research의 텍스트 종합 능력이 합쳐지니, 각자는 못 하던 일을 해내거든요.
"경쟁사 3곳 분석해서 슬라이드 덱 만들어줘"가 왜 한 번에 되는지 뜯어보면 명확해요. 웹사이트를 직접 돌며 데이터를 긁고(Operator), 긁은 정보를 종합 분석하고(Deep Research), 편집 가능한 프레젠테이션 파일로 뽑아내는(GPT-5.4의 새 능력) 전 과정이 하나의 상태를 공유하며 끊김 없이 이어져요. 텍스트 브라우저, 비주얼 브라우저, 터미널, API 연동 — 도구가 바뀌어도 맥락이 끊기지 않는 게 핵심이에요.
그 바탕엔 네이티브 컴퓨터 사용(Computer Use)이 있어요. GPT-5.4는 화면을 직접 해석하고 마우스·키보드를 제어해 사람이 컴퓨터로 하는 일을 그대로 따라 해요. 추론·코딩·에이전트 워크플로우를 하나의 모델에 통합한 OpenAI 최초의 프론티어 모델이고, ChatGPT·API·Codex에 동시 출시된 것도 처음이에요.
OSWorld-Verified 숫자가 상징적이에요. 실제 데스크톱 환경에서 작업을 끝내는 능력을 재는 벤치마크인데, GPT-5.4가 75%로 평균적인 사람(72.4%)을 넘었어요. "AI가 컴퓨터를 사람보다 잘 다룬다"가 처음으로 숫자로 증명된 셈이죠.
그래서 '뭘' 시킬 수 있나 — 한 프롬프트로 끝나는 일들
성능 얘기는 여기까지. 실제로 손에 잡히는 건 "어떤 명령을 한 줄로 넘길 수 있느냐"예요. 성공률 높은 조합은 거의 리서치 + 정리 패턴이에요. 그대로 복사해 써도 되게 정리했어요.
- 경쟁사 비교 → 덱: "경쟁사 A·B·C 가격과 핵심 기능 조사해서 비교 슬라이드 덱 만들어줘." 웹을 직접 돌며 수집 → 종합 → 편집 가능한 PPT 파일로 출력.
- 뉴스 → 요약표: "이번 주 AI 뉴스 5개 찾아서 출처 링크 포함 요약표로 만들어줘." Deep Research 강점이 그대로 살아나는 작업이에요.
- 내 캘린더 → 브리핑: "내 구글 캘린더 보고 다음 주 미팅별 사전 브리핑 만들어줘." 앱 커넥터를 연결해야 가능한 개인화 작업이에요.
- 가격 조사 → 스프레드시트: "경쟁사 3곳 요금제 비교해서 편집 가능한 스프레드시트로 정리해줘." 결과가 캡처가 아니라 손볼 수 있는 파일로 나와요.
- 반복 자동화: "매주 월요일 아침, 경쟁사 뉴스 브리핑"처럼 예약 걸어두기. 완료된 작업의 시계 아이콘으로 매일·매주·매월 반복 가능.
이게 가능해진 이유는, 작업이 어렵게 학습된 게 아니라 스스로 학습됐기 때문이에요. Sequoia 팟캐스트에서 OpenAI 연구원들이 밝힌 비하인드가 흥미로워요. 에이전트를 만든 팀은 놀랍도록 작았대요 — Deep Research 연구원 3~4명, Operator 연구원 6~8명, 거기에 응용 엔지니어링 팀. 이 소수가 수천 대의 가상 머신에서 강화 학습(RL)을 돌렸는데, 핵심은 "도구 사용 패턴을 사람이 정해주지 않고, 모델이 스스로 최적 전략을 찾게 둔" 거예요. 그래서 처음 보는 사이트에서도 알아서 길을 찾아요.
GPT-5.2 시절과 뭐가 그렇게 달라졌나
"기존 에이전트도 브라우저 조작은 했잖아?" 맞아요. 차이는 "할 수 있다"에서 "잘한다"로 넘어갔다는 데 있어요. 표로 보면 한눈에 들어와요.
| 이전 (GPT-5.2 기반) | 현재 (GPT-5.4 기반) | |
|---|---|---|
| 추론 모델 | GPT-5.2 Thinking + o3 | GPT-5.4 Thinking 단일 모델 |
| 데스크톱 조작 | 웹 브라우저 위주 | 네이티브 컴퓨터 사용 (마우스+키보드) |
| 전문가 수준 업무 | 44개 직종 중 70.9% 일치 | 44개 직종 중 83.0% 일치 (GDPval) |
| 코딩 | 기본 코드 생성 | GPT-5.3-Codex급 코딩 + 프론트엔드 폴리시 |
| 컨텍스트 | 제한적 | 272K 기본, 최대 1M 토큰 |
| 스프레드시트·PPT | 기본 생성 | 편집 가능한 파일 직접 생성·수정 |
| 사고 과정 | 블랙박스 | 사고 계획을 미리 보여주고 사용자가 조정 가능 |
덤으로 정리할 변화 하나 더. 별도 서비스로 굴러가던 operator.chatgpt.com은 수주 내 폐지 예정이에요. 가상 브라우저가 ChatGPT Agent 안에 내장됐거든요. 기존 Operator 사용자는 별도 조치 없이 에이전트 모드로 넘어가면 돼요.
오늘 바로 시작하는 법
요금제만 맞으면 5분이면 첫 작업을 던질 수 있어요.
- 요금제 확인
GPT-5.4 Thinking은 ChatGPT Plus($20/월), Team, Pro($200/월)에서 써요. 에이전트 사용 한도는 Plus 월 40회, Pro 월 400회예요. 최고 성능인 GPT-5.4 Pro는 Pro·Enterprise 전용이고요. - 에이전트 모드 진입
대화창 하단 도구 드롭다운에서 "agent mode"를 고르거나/agent를 입력해요. 일반 대화 도중에 중간 전환도 돼요. - 앱 커넥터 연결
Google Calendar·Gmail·Google Drive·GitHub 등을 연결하면 "내 캘린더 보고 다음 주 미팅 브리핑해줘" 같은 개인화 작업이 풀려요. - 첫 작업은 '리서치+정리'로
위에서 정리한 프롬프트 중 하나를 그대로 복사해 던져보세요. 가장 성공률 높은 진입로예요. - 반복 예약 걸기
잘 된 작업의 시계 아이콘을 눌러 매일·매주·매월 자동 실행. "매주 월요일 경쟁사 뉴스 브리핑"부터 자동화해보세요.
맡기기 전에 알아둘 것
많이 좋아졌어도 만능은 아니에요. 에이전트 작업은 여전히 5~30분이 걸리고, 날짜 선택기(datepicker) 같은 단순 UI에서 헤매기도 해요. 웹사이트마다 다른 레이아웃 적응은 아직 도전 과제고요. 결제나 이메일 전송 같은 고위험 작업은 반드시 직접 확인하세요. 처음엔 '되돌릴 수 있는 일'부터 맡기는 게 안전해요.





