AI 에이전트 운영 회의 중인 소프트웨어 개발 팀이 디지털 스크린 앞에서 데이터베이스 설계를 논의하는 모습

ibm.com

AI智能体时代:从"造出来"到"管得住"——Agent Ops正在崛起

Agent Ops, AI智能体运营, 可观测性, 追踪, 治理开发

The year companies stop building AI agents and start running them

What is AgentOps? The Ultimate 2026 Guide to AI Agent Operations

AI Agent Observability: Tracing, Testing, and Improving Agents

5分钟就能造出一个AI智能体,这事其实大家都知道了。真正的难题在后面——当几十上百个智能体同时跑在生产环境里,谁来管、谁来担责?IBM watsonx副总裁Maryam Ashoori说得很直白:"能量已经转移了,焦点现在是怎么有信心地把AI智能体大规模运营起来。"

3秒速览

什么是Agent Ops? 一套在生产环境中监控、追踪和治理AI智能体的运营体系

为什么是现在? 2025年底企业部署了成百上千个智能体,但缺乏管理体系,运营风险开始集中爆发

核心转变: 从"构建期(Build Time)"转向"运行期(Run Time)"——造出来已不是问题,运营才是新战场

这是什么?

Agent Ops(智能体运维)就是AI智能体版的DevOps。它关注的不是怎么造智能体,而是怎么安全地、大规模地、在真实业务系统里把它们运营起来。

为什么突然需要这个?看一下时间线就清楚了。

2023年:探索期
大多数企业把生成式AI当作探索性投资,只在摘要、分类、代码生成这类窄领域里能看到价值。
2024年初:智能体热潮
LLM获得调用API的能力后,"Agentic AI"概念彻底爆发。CIO们开始在没有清晰规划的情况下,直接提出要上智能体。
2025年末:现实撞墙
几十到几百个智能体跑在不同平台上——开发者做的、业务部门做的、外部供应商做的全混在一起,管理彻底失控。
2026年:Agent Ops元年
焦点从构建期转向运行期,监控、治理、可观测性成了核心能力。

IBM的Ashoori发出了这样的警告:"模型一旦产生幻觉、调用了错误的工具,如果那个工具恰好能访问未授权数据,就会引发数据泄漏。"这已经不是简单的答错问题,而是会直接演变成运营事故。

这并不只是IBM一家的看法。根据LangChain发布的《State of Agent Engineering》报告,89%的组织已经引入了智能体可观测性,62%已经实现了步骤级细粒度追踪。"造完之后怎么管"已经成了行业共识级的议题。

Gartner预测,到2028年,与生成式AI服务的互动中约三分之一将通过自主智能体完成。如果智能体真的无处不在了,没有运营体系根本撑不住。

有什么不同?

"构建智能体的时代"和"运营智能体的时代"需要的能力完全不同。

	构建期(Build Time)	运行期(Run Time)
核心问题	能多快造出一个智能体?	生产环境里能不能信任这个智能体?
失败类型	Prompt错误、选错模型	多步推理链中的因果性失败
调试方式	检查输入 → 输出	整个会话的全链路追踪(trace → span → tool call)
安全性	API密钥管理	按智能体自主程度划分责任,强制执行策略
成本管理	模型API调用费用	按任务粒度归因成本(哪一步产生了费用)
成功指标	"能跑!"	任务完成率、工具选择准确率、人工升级比例

传统的LLM监控,看一下输入输出就够了。但智能体不一样。一个请求会被拆成多步,每一步都可能反复调用模型、调用工具、访问数据源。要搞清楚哪里出了问题,必须追踪整条执行路径。

Arize AI对这个问题的定义是:"智能体的失败不是出在单次调用上,而是出在多步因果链上。"第2步检索结果不好,第4步传错了工具参数,第5步状态被悄悄污染,但第8步给出的最终答案却看起来很靠谱。这种现象被称为"假性成功(False Success)",是最危险的失败类型。

注意:目前在生产环境真正聚焦可观测性和监控的组织只有约19%。智能体数量在爆炸式增长,可控制塔几乎是空的。

上手指南

要落地Agent Ops,首先得做一个思维转变:把智能体当作"运营资产"来管,而不是当作"一段软件"。

先把追踪能力搭起来
在扩大用户规模之前,先把会话ID、trace ID、每一步的span、工具输入输出、延迟与成本这些信息都埋点记录下来。LangSmith、Arize Phoenix、Langfuse等工具专门负责这一层。
把失败转化为评估数据集
把生产环境中出现的失败case做成回归测试用例。目标是"同样的错不犯第二次"。Braintrust、LangSmith等平台都支持一键把失败trace加入评估数据集。
用智能体专属指标来判断是否发布
不光看回答质量,还要追踪任务完成率、工具选择准确率、无效工具调用比例、工具失败后的恢复率、人工升级比例。
把治理策略从构建系统中独立出来
IBM的Ashoori强调,造智能体的系统和管智能体的系统必须分离。不管用什么框架造、部署在哪里,都要能套用同一套监控、评估和优化标准。
每周做一次Trace复盘
生产环境的智能体没人看就会悄悄退化。每周检查trace和评估指标的漂移情况,把失败转化为测试覆盖率——这个循环要持续转起来。

重点:试试用这几个问题自检一下智能体是否"Production Ready"——能按步骤复现失败的执行过程吗?所有工具的输入输出都可见吗?一个任务的完整成本算得出来吗?能识别死循环、重试、走进死胡同的分支吗?

深入了解

Agent Ops观测工具对比 对Arize AX、LangSmith、Langfuse、Braintrust、AgentOps等2026年主流智能体可观测性工具按架构(代理模式 vs SDK模式)进行对比的指南。 arize.com

LangSmith智能体可观测性指南 覆盖追踪、多轮评估、AI辅助调试——LangChain整理的智能体可观测性实战指南。 langchain.com

生产级智能体部署循环 dev.to

AI智能体落地,为什么在实战中频频失败 blog.dfinite.ai

常见问题

Agent Ops和传统的MLOps、DevOps有什么区别?

MLOps关注模型训练与部署,DevOps聚焦代码发布。而Agent Ops专门处理那些会自主判断、自主调用工具的智能体,对它们的多步执行路径进行全程追踪和治理。它管的不是单次模型调用,而是整条会话级的因果链,这是最核心的差别。

现在就要引入智能体可观测性工具吗?

如果你的智能体在生产环境里会连续调用两个以上的工具,或者每天要处理几十次以上的请求,那就有必要引入了。原型阶段用基础日志就够,但一旦有真实用户流量,没有追踪几乎没法调试。

开源工具和商业平台该怎么选?

团队规模小、追求快速调试的,LangSmith、Braintrust这类商业平台更顺手。如果你对数据驻留有严格合规要求,或者已经部署了OpenTelemetry基础设施,那么Langfuse、Arize Phoenix这样的开源方案更合适。很多团队会先用外部平台起步,之后再把一部分能力自研内化。

作者拉什

追踪商业与AI的交汇点。

这个参考对您有帮助吗？

每周精选参考直达您的邮箱

分享此参考

8年只想不动手的产品,我用AI编程代理3个月做完了

Google资深工程师把搁置8年的开源项目,用AI编程代理3个月内做出来了。从Vibe Coding的失败、推倒重写,到AI真正擅长与不擅长的事——一份用250小时实战记录证明的复盘。

你可能还感兴趣

其他读者也在看的参考

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

pymnts.com

Cursor爆发式增长至500亿美元估值，预示AI编程工具市场大变局

Cursor 估值冲击 500 亿美元 — 6 个月翻倍,AI 编程工具市场全面爆发

ARR 突破 20 亿美元,3 个月营收翻倍。并行 Agent、MCP Apps、JetBrains 集成——Cursor 揭示 AI 编程市场的真实规模与未来走向。

查看详情

cdn.infograb.io

Claude Skills

只需教AI一次 — Claude Skills 33页指南完整整理

Anthropic公开的33页官方指南核心总结。用一个文件夹向Claude传授业务诀窍的Skills功能——节省50%token，消息15次→2次，还可以全团队共享。

查看详情

下一篇 →8年只想不动手的产品,我用AI编程代理3个月做完了