ChatGPT Agent GPT-5.4 Operator Deep Research 통합

images.ctfassets.net

OperatorとDeep Researchがひとつに — GPT-5.4搭載 ChatGPT Agent完全ガイド

OpenAIがOperatorとDeep Researchを統合した、GPT-5.4搭載の最強AIエージェントビジネス

Introducing ChatGPT agent: bridging research and action

Introducing GPT-5.4

Sequoia — How We Built ChatGPT Agent

カレンダーを確認して、ニュースを調査して、ブリーフィング資料まで作って — この3つをひとつのプロンプトで完結できるようになりました。OpenAIが2025年7月に初めて発表したChatGPT Agentが、2026年3月にGPT-5.4を搭載して、まったく別物に生まれ変わりました。別サービスだったOperatorは廃止予定となり、Deep Researchの分析力もエージェントに統合されました。これで本当に「ひとつで何でもできる」AIになったんです。

3秒で要約

GPT-5.4搭載 → Operator+Deep Research統合 → 仮想コンピューターでブラウザ・ターミナル・APIを自在に操作 → ひとつのプロンプトでマルチステップ業務を完了

これは何?

少しタイムラインを整理しましょう。2025年1月、OpenAIはOperatorをリリースしました。AIがブラウザを直接操作するサービスです。同時期にDeep Researchもありました。数十のソースを読み込んで総合レポートを作成するリサーチ特化の機能です。問題は — この2つが別々に動いていたことです。

Operatorはウェブサイトのクリックやスクロールは得意でしたが、長い文書を読んで分析するのは苦手でした。Deep Researchは分析の達人でしたが、ログインが必要なサイトにはアクセスすらできませんでした。 2025年7月、OpenAIはこの2つのチームを統合してChatGPT Agentを作りました。

そして2026年3月5日、GPT-5.4がリリースされ、ChatGPT Agentはまったく新しいステージへと進化しました。 GPT-5.4はOpenAIの最も強力なフロンティアモデルです。推論、コーディング、エージェントワークフローをひとつのモデルに統合した初めての事例で、ChatGPT・API・Codexに同時リリースされたのも初めてのことです。

核心となる変化はネイティブ・コンピューター使用（Computer Use）です。GPT-5.4は画面を直接解釈し、マウスとキーボードを操作して複雑なワークフローを自動化できます。テキストブラウザ、ビジュアルブラウザ、ターミナル、API連携まで — すべてのツールがひとつの状態を共有しながらシームレスに切り替わります。

75%

OSWorldベンチマーク（人間平均72.4%）

83%

GDPval 専門家比較の一致率

272K

標準コンテキストウィンドウ（最大1M）

Sequoia CapitalのポッドキャストでOpenAIの研究者たちが明かした内部の話が印象的です。エージェントを作ったチームは驚くほど小さかったそうです。Deep Research研究者3〜4名、Operator研究者6〜8名、そして応用エンジニアリングチーム。この小さなチームが強化学習（RL）で数千台の仮想マシン上でさまざまなタスクを学習させました。ポイントは「ツールの使い方を決めず、モデル自身が最適な戦略を見つけるようにした」ということです。

Operatorは廃止予定

ChatGPT Agentに仮想ブラウザが内蔵されたことで、別途運営されていたoperator.chatgpt.comは数週間以内に廃止予定です。既存のOperatorユーザーは特別な手続きなしにChatGPTのエージェントモードに移行できます。

何が変わるのか?

従来のChatGPT Agent（2025年7月）もブラウザを操作できました。ただし、GPT-5.4搭載後に変わったのは、「できる」から「うまくできる」へのシフトです。

	以前（GPT-5.2ベース）	現在（GPT-5.4ベース）
推論モデル	GPT-5.2 Thinking + o3	GPT-5.4 Thinking単一モデル
デスクトップ操作	Webブラウザ中心	ネイティブ・コンピューター使用（マウス+キーボード）
専門家レベルの業務	44職種中70.9%一致	44職種中83.0%一致（GDPval）
コーディング	基本的なコード生成	GPT-5.3-Codexレベルのコーディング＋フロントエンドポリシー
コンテキスト	限定的	272K標準、最大1Mトークン
スプレッドシート・PPT	基本生成	編集可能なファイルを直接生成・編集
思考プロセス	ブラックボックス	思考計画を事前に表示し、ユーザーが調整可能

OSWorld-Verifiedベンチマークが象徴的です。これはAIが実際のデスクトップ環境でタスクを実行する能力を測定するもので、GPT-5.4は75%を記録しました。人間の平均スコア（72.4%）を超えたことになります。「AIがコンピューターを人間より上手く操作できる」ことがベンチマークで初めて証明されたわけです。

Sequoia Capitalの分析が的確です — 「1+1=3」だと言うんです。 Operatorのビジュアルなウェブ操作能力とDeep Researchのテキスト分析・統合能力が組み合わさることで、それぞれでは不可能だったことが実現するんです。たとえば「競合3社を分析してスライドデッキを作って」と指示すれば — ウェブサイトを直接巡ってデータを収集し（Operatorの能力）、集めた情報を総合的に分析し（Deep Researchの能力）、編集可能なプレゼンテーションファイルを生成する（GPT-5.4の新機能）という一連のプロセスがひとつで動きます。

注意しておくこと

GPT-5.4で大幅に改善されましたが、エージェント作業には依然として5〜30分かかります。日付選択（datepicker）のようなシンプルなUIで手間取ることもあり、ウェブサイトごとに異なるレイアウトへの適応はまだ課題です。決済やメール送信のような高リスクな操作は必ず自分で確認してください。

始め方のポイント

プランを確認する
GPT-5.4 ThinkingはChatGPT Plus（月額$20）、Team、Pro（月額$200）ユーザーに提供されます。Plusは月40回、Proは月400回のエージェント利用が可能です。 GPT-5.4 Pro（最高性能）はPro・Enterprise限定です。
エージェントモードに入る
ChatGPTの入力欄下部のツールドロップダウンで「agent mode」を選択するか、/agentと入力すればOKです。どの会話の途中からでも切り替えられます。
アプリコネクターを接続する
Google Calendar、Gmail、Google Drive、GitHubなどを接続すると、「自分のカレンダーを確認して来週のミーティングをブリーフィングして」のようなパーソナライズされた作業が可能になります。
最初のタスクを任せる
リサーチ＋まとめの組み合わせが最も成功率が高いです。「今週のAIニュースを5つ探して要約表を作って」「競合A/B/Cの価格を比較してスプレッドシートにまとめて」といったものを試してみてください。
繰り返し作業を自動化する
完了したタスクの時計アイコンをタップすると、毎日・毎週・毎月の繰り返し予約ができます。「毎週月曜の朝、競合ニュースブリーフィング」を自動化してみましょう。