images.unsplash.com

制約を与えるとエージェントが賢くなる — Statewrightステートマシンのパラドックス

AIエージェント信頼性、ステートマシン、Statewright、MCPツール制御開発

Show HN: Statewright – Visual state machines that make AI agents reliable

Building Effective Agents — Anthropic Engineering

XState Documentation — State Machines and Statecharts

AIエージェントにツールを多く渡すほど良いパフォーマンスを発揮するはず——そう思いますよね。でも現実はその逆でした。フェーズごとに使えるツールを物理的に制限したら、13Bの小さいモデルが大型モデルを上回ったんです。

30秒まとめ

エージェント失敗の原因 → フェーズ（State）定義 → ツールアクセスを物理制限 → 小型モデルで大型モデル性能 → コスト最大80%削減

エージェントはなぜ失敗し続けるのか

コーディングエージェントを使ったことがある方なら分かると思います。うまくいく時は本当に素晴らしいんですが、一度ずれると完全に엉뚱な方向に行ってしまうんですよね。これは単にモデルが賢くないから起こる問題なんでしょうか？

AI研究者のChip Huyenがこの問題を数学的に分析しています。エージェントが各ステップで95%の精度を維持したとしても、10ステップ積み重なると全体の成功率は60%に落ち、100ステップでは0.6%まで急落します。ステップが増えるほどエラーが指数的に蓄積される構造なんです。

Anthropicもこの問題を直接認めています。「エージェントの自律的な性質は、コストの増加とエラーの蓄積リスクをもたらす」と。多くのソリューションはこう対応します——より大きなモデルを使え、コンテキストウィンドウを拡張しろ。Statewrightはその真逆を行きます。問題空間を小さくする。

核心となるアイデアはシンプルです。エージェントが現在どのフェーズ（State）にいるかに応じて、アクセスできるツールを物理的に制限するんです。計画フェーズでは読み取り専用ツールのみ、実装フェーズでは編集ツール、テストフェーズではbashコマンドのみ。プロンプトで「このツールだけ使って」とお願いするのではなく、プロトコルレベルで物理的にブロックするんです。

核心コンセプト：「エージェントは提案、状態は法律だ」

Statewright創設者Ben Cochranの言葉です。モデルが状態ルールを無視して不正なツールを使おうとすると、プロンプトで止めるのではなく、プロトコル自体が拒否します。勧告ではなく構造的な強制です。

何がどれだけ変わるのか

似たようなツールはすでにありますよね——LangGraph、XState、Claude Code。何が違うのか見てみましょう。

	既存フレームワーク	Statewright
ツールアクセス制御	プロンプトベース（勧告）	ステートマシン（物理強制）
ルール違反時	モデルが無視可能	プロトコルレベルでブロック
モデルルーティング	手動設定	フェーズ別自動ルーティング
入力トークン効率	全ツールリストを露出	現在フェーズのツールのみ
コスト削減可能性	—	マルチフェーズで最大80%

LangGraphはエージェントをグラフノードとして接続し、専門的な役割を担わせる方式です。専門化がパフォーマンスを向上させるという哲学は似ていますが、LangGraphはプロンプトで誘導するだけで物理的にはブロックしません。Claude Codeと比較するともっと興味深くて——Claude Codeは作業開始時に35,000トークン以上のコンテキストから始まります。Statewrightは現在の状態で必要なツールだけを露出するので、入力トークンが大幅に削減され、キャッシュ効率も向上します。

そして最も反直感的な結果がこれです。13Bパラメータ以上のモデルなら、自由に動かす大型モデルよりStatewrightで制約された小さいモデルが一貫して良い結果を出しました。Qwen-coder、GPT-OSS、Gemma4はもちろん、Haiku、Sonnet、Opusまで複数のモデルファミリーで同じパターンが確認されたとのことです。

すぐ始められるガイド

インストール——MCPでエディタに接続
Claude Code、Codex、Oh-My-CodexなどのMCP対応エディタでStatewrightプラグインをインストールします。コアエンジンとエージェントクレートはApache 2.0なので無料で使えます。
ワークフローの状態を定義
YAMLまたはJSONで状態（state）と遷移（transition）条件を定義します。「planning → implementation → testing」のようなフェーズを明示し、各フェーズのガード条件を設定します。
ツールアクセス権限を割り当て
各状態で許可するツールを指定します。planningはファイル読み取りのみ、implementationは編集ツールまで、testingはbash実行のみ。この制約はプロトコルレベルで強制されます。
フェーズ別モデルルーティングの設定（任意）
コストを削減したい場合、計画フェーズはHaiku、実装はSonnet、レビューはOpusに自動ルーティングするよう設定します。マルチフェーズワークフローで最大80%のコスト削減が可能です。
実行と監査ログの確認
Statewrightはすべての状態遷移とツールアクセス試行をログに残します。どのフェーズでどの試行がブロックされたか完全に追跡可能なため、SOC 2などの監査要件にも対応できます。

~80%

マルチフェーズワークフローでのコスト削減（フェーズ別モデルルーティング時）

13B+

このパラメータ以上で大型モデル比の一貫した性能改善を確認

Apache 2.0

コアエンジン＋エージェントクレートのライセンス（完全オープンソース）

さらに深く学びたい方へ

Show HN: Statewright Discussion 創設者Ben CochranとのQ&A。ライセンス方針、技術設計の意図、LangGraph・XStateとの違いを直接確認できます。 news.ycombinator.com

Building Effective Agents — Anthropic エージェント信頼性問題の構造的原因とAnthropicが推奨する設計原則。なぜシンプルさが複雑なエージェントより先なのかを解説しています。 anthropic.com

LangGraph: Multi-Agent Workflows グラフベースのマルチエージェントオーケストレーションの代表的なフレームワーク。Statewrightとのアプローチの違いを比較するのに最適です。 langchain.com

Agents — Chip Huyen AIエージェントの信頼性問題を数学的に分析した記事。「95%精度→100ステップで0.6%成功率」の計算はここから来ています。 huyenchip.com

XState Documentation UI開発向けステートマシンの参考資料。Statewrightがエージェント向けツールアクセス制御としてこれをどう特化させたかを理解するのに役立ちます。 xstate.js.org

よくある質問

小型モデル（7〜13B）でも効果がありますか？

Statewrightのテスト結果では、13Bパラメータ以上から一貫した性能改善が確認されています。13B未満のモデルは状態マシンの指示に従う能力自体が不安定なため、効果が限定的になる可能性があります。

LangGraphやLangChainからの移行は難しいですか？

Statewrightはスタンドアロンのフレームワークなので、既存のLangChain/LangGraphコードを直接ポーティングするわけではありません。ワークフローをステートマシンとして再モデリングする必要があるため、設計段階のリファクタリングが必要です。新規プロジェクトや既存プロジェクトの新しいモジュールへの適用が現実的です。

コーディングエージェント以外のユースケースはありますか？

はい。コンテンツパイプライン（リサーチ→草稿→レビュー→公開）、SOC 2コンプライアンス監査、企業の変更管理（計画→レビュー→実装→承認→デプロイ）などで実際に使用されています。段階的な監査ログが必要なプロセスに特に適しています。

FSL 1.1ライセンスはどう解釈すればいいですか？

コアエンジンとエージェントクレートはApache 2.0で完全オープンソースです。プラグインとゲートウェイ部分がFSL 1.1で、3年後にApache 2.0に転換されます。ソロ開発者と研究者には特許適用の除外も明示されています。

Claude Codeと併用した場合、競合しませんか？

StatewrightはMCP（Model Context Protocol）統合でClaude Codeと共に動作するよう設計されています。Claude Codeが実行時にツールリストをフィルタリングし（キャッシュへの影響なし）、Statewrightが状態別のツールアクセスを制御する方式なので、競合というより補完関係に近いです。