モデルが賢くなれば、コードは良くなるのでしょうか? Anthropicは「いいえ、ハーネス(harness)が結果を決めます」と答えました。2026年3月24日に公開した公式エンジニアリングブログでです。

3秒で要約
自己評価の限界を発見 GAN構造から着想 Generator + Evaluator の分離 3エージェントアーキテクチャ モデル改善後に再び単純化 ハーネスはモデルと共に進化する

これは何?

Anthropic Labsチームの Prithvi Rajasekaran が書いたこの記事は、2つの問題を同時に解こうという試みから始まりました。一つはClaudeに美しいフロントエンドを作らせること、もう一つは何時間も人の介入なしに完全なアプリを作らせることです。

核心となる洞察はシンプルです。同じモデルでも、ハーネス(harness)の設計次第で成果物の品質がまったく変わるということです。Anthropicの既存の「Building Effective Agents」ブログではすでに「できる限りシンプルなソリューションを探し、必要なときだけ複雑さを加えよ」という原則を打ち立てていました。この記事はその原則を実際に適用して進化させた実践記です。

ここでの「ハーネス」とは、LLMを包む実行環境全体を指します。プロンプト、ツールの接続、エージェント間の連携構造、フィードバックループなど、モデルの外側にあるすべてのシステムです。Aakash Guptaの言葉を借りれば、モデルがエンジンなら、ハーネスはクルマそのものです — 最高のエンジンもハンドルとブレーキなしには役に立ちません。

このテーマが今注目されているのは、業界全体が同じ結論に達しつつあるからです。Manusは6ヶ月間でハーネスを5回作り直し、LangChainはDeep Researchを4回再設計し、Vercelはエージェントツールの80%を削除してむしろより良い結果を得ました。OpenAIもハーネスエンジニアリングの概念を公式化しています。

何が変わるのか?

Anthropicブログが語る核心的な問題は2つです。

一つ目、コンテキスト不安(Context Anxiety)。 エージェントはコンテキストウィンドウが埋まると一貫性を失います。さらに深刻なのは、自分が限界に達したと「感じると」、仕事を早めに切り上げようとする傾向です。Sonnet 4.5ではこの現象が顕著で、コンテキストをまるごとリセットする方式を採用しました。

二つ目、自己評価の失敗。 AIに自分の成果物を評価させると、品質が明らかに低くても「よくできました!」と答えます。特にデザインのような主観的な判断が必要な領域で、この現象が顕著でした。

この2つの問題を解決するため、AnthropicはGAN(Generative Adversarial Network)から着想を得て、GeneratorとEvaluatorを分離する構造を設計しました。

従来の方法(単一エージェント)Anthropicのアプローチ(分離構造)
自己評価自分で作って自分で評価 → 常に甘い点数作るAIと評価するAIが別々
デザイン品質安全で予測しやすいレイアウトを繰り返す評価基準に基づいて反復改善、美術館レベルの試み
長時間作業コンテキストが埋まると一貫性を失うPlanner-Generator-Evaluatorの3層構造
コスト対品質20分、$9 — 主要機能が動作しない6時間、$200 — 完全に動作するアプリ

フロントエンドデザインの実験でAnthropicは4つの評価基準を設けました: デザイン品質、独創性、技術的完成度、機能性。特に「独創性」の基準では「修正されていないストックコンポーネントやAIスロップパターン(紫のグラデーション上の白いカード等)は減点」と明示しました。AIが作ったと分かるデザインを明確にペナルティとしたわけです。

EvaluatorにPlaywright MCPを渡し、実際のページをナビゲートしてスクリーンショットを撮りながら評価させました。5〜15回の反復を経てスコアが上がっていき、ある実験ではオランダの美術館ウェブサイトを作る過程で10回目の反復にCSSパースペクティブで3Dギャラリー空間を作るという創造的な飛躍が生まれました。

ポイント整理:進化の3段階

  1. ステップ1:2エージェントハーネス(2025年11月)
    Initializer + Coding Agent。タスクをフィーチャー単位に分割し、コンテキストリセットでセッション間ハンドオフ。Sonnet 4.5ベース。これだけで基本エージェントよりはるかに良い結果を出しました。
  2. ステップ2:3エージェントハーネス(Opus 4.5)
    Planner + Generator + Evaluator。1行のプロンプトを16フィーチャー・10スプリントに展開。スプリントごとに契約(Contract)を締結し、実装→評価を繰り返す。2Dレトロゲームメーカーを6時間$200で完成 — 単一エージェント(20分、$9)とは次元の違う成果物。
  3. ステップ3:単純化されたハーネス(Opus 4.6)
    スプリント構造を廃止し、評価を最後の1回に縮小。Opus 4.6がより賢くなったため可能になりました。ブラウザDAW(デジタルオーディオワークステーション)を約4時間$125で完成。
  4. 核心の教訓:ハーネスのすべてのコンポーネントは「モデルが単独でできないこと」への仮定だ
    モデルが進化すれば、その仮定を再検証する必要があります。もはや必要のない部分は取り除き、新たな可能性のための部分を加える。AnthropicはOpus 4.6の登場とともにこれを実践しました — スプリント分解を廃止し、代わりにAI機能の内蔵に関するプロンプティングを追加しました。

Anthropicの核心的な一文

「ハーネスの興味深い組み合わせの空間は、モデルが進化しても縮小しない。代わりに移動する。AIエンジニアの面白い仕事は、その次の新しい組み合わせを探し続けることだ。」

LangChainのLance Martinはこれをリチャード・サットンの「苦い教訓(Bitter Lesson)」に例えました。汎用的な手法が最終的には精巧に設計されたシステムを打ち負かすという原則が、モデルの学習だけでなくアプリケーションレイヤーにも適用されるということです。「時間が経つにつれてモデルが良くなり、構造を取り除き、仮定を削除し、ハーネスをよりシンプルにしていかなければならない」。

既存ポストとの関係

ワーキングリファレンスの既存記事 Harness Engineering — AIコーディングエージェントの荒馬を制御する方法は、Commands、Skills、Hooksといった実践的なフレームワークを扱っています。この記事はAnthropicの公式ブログの設計哲学と進化のプロセスに焦点を当てた別のリファレンスです。

さらに深掘りしたい人へ