"白板上手写的to-do清单,Spot读完后就照着干了起来。"
3月,一段四足机器人Spot在客厅里把鞋子放进鞋柜、收拾空饮料罐的视频公开亮相 。比演示本身更有意思的,是它背后的架构。工程师写的代码全部加起来就是一组"自然语言提示词",任务顺序、失败处理、重试机制全都由Gemini Robotics来决定。
这是什么?
波士顿动力(Boston Dynamics)与Google DeepMind合作,在一个月内接连发布了两项成果 。
(1) "To Do List with Spot" — 在家庭环境中通过自然语言指令完成清扫的实验性演示。Gemini Robotics-ER 1.5调用Spot的SDK来编排任务。(2) AIVI-Learning(商用产品) — 将Gemini Robotics-ER 1.6集成到Spot工业视觉检查能力中的正式发布版本。2026年4月8日起,自动向所有AIVI客户启用 。
一句话总结,机器人的工作方式正从"写代码"转向"自然语言指令"。而且不是停留在演示阶段,而是已经落地到工业现场。
- 仪表识别准确率从23%跃升到98%
从Gemini Robotics-ER 1.5升级到1.6并加入agentic vision(智能体视觉),就出现了这样的跳跃 。对照组:Gemini 3.0 Flash单独使用为67%。 - 从写"状态机代码"的时间,变成写自然语言提示词的时间
过去用代码定义每一步,现在只要用自然语言描述工具的用途,LLM就会自己生成执行序列 。 - 现场用户能看到"为什么这么判断"(Transparent Reasoning,透明推理)
AIVI不再只丢出检查结果,而是把推理过程也展示出来。这对安全和受监管行业来说是必备的变化 。 - Zero-Downtime Upgrades(零停机升级)
模型在云端自动更新。无需固件升级、无需停机,检查准确率自己就会提升 。
不写代码,究竟怎么让机器人干活?
传统的机器人编程是"状态机(state machine)"。移动→打开摄像头→识别物体→抓取→移动→放下,每一步都包括分支、失败处理、重试,全部用代码写死。环境一变,代码就要重写。
波士顿动力团队的做法不一样。他们在SDK之上搭建了一层"工具(tool)层",再用自然语言提示词描述每个工具的用途 。比如"TakePicture"工具的提示词是这样写的:
"该指令使用指定的摄像头拍照。在选择摄像头时存在微妙差异。GoTo到达目标位置后,务必先用夹爪摄像头拍摄——它信息最丰富。如果机器人手中已经拿着东西,可以(1)立即调用PutDown,或(2)用前置摄像头扫描该区域。但要注意,前置摄像头位置较低,不适合拍摄高处的物体。"
这不是一行代码。它是用自然语言描述机器人硬件的物理限制。而且这套方法真的能跑起来。演示当天,Spot直接用摄像头读取白板上手写的to-do清单,逐项调用工具,从头到尾完成了所有任务 。
现场反馈的变化如下。
| 指标 | 传统方式(代码型自动化) | Spot × Gemini Robotics |
|---|---|---|
| 新增任务 | 编写、测试、部署状态机代码 | 添加自然语言提示词,立即演示 |
| 仪表识别准确率 | 传统视觉模型 / Gemini Robotics-ER 1.5:23% | Gemini Robotics-ER 1.6 + agentic vision:98% |
| 模型更新 | 必须升级机器人固件,且要停机 | Zero-Downtime,云端自动同步 |
| 判断依据查看 | 黑盒 | Transparent Reasoning(展示推理步骤) |
| 失败时处理 | 所有异常处理代码都得人工写 | 工具用自然语言反馈("手已被占满,无法抓取")→LLM重新规划 |
最后一行才是关键。工具用自然语言句子返回结果——"已抓取物体"、"手被占满,无法抓取"——Gemini Robotics看到后会重新思考下一步 。真正的变化是,人不必再把所有异常情况提前写进代码里。
那工业现场到底有什么不同?
家庭清扫演示之所以有意思,不是因为"看起来神奇"。而是因为同一套架构原封不动地搬到了工业现场(AIVI-Learning) 。
Spot在汽车工厂、发电站、物流中心承担定期巡检任务。一次巡检要查的资产数以百计——仪表(模拟压力表、温度计)、视镜(罐体内液位)、传送带损伤、漏油痕迹、5S整理状态等等。要把这些准确读出来,靠的不是简单的物体识别,而是"复杂视觉推理" 。
| 巡检项 | 过去 | 集成Gemini Robotics-ER 1.6后 |
|---|---|---|
| 模拟仪表 / 视镜0~100%测量 | 只能识别物体,读不出数值 | 能精确提取数值 |
| 5S合规审计 | 人工巡检 | 自动化(可替代多班次人力) |
| 托盘计数 | 手工 / 单独的视觉系统 | AIVI直接处理 |
| 积水、未授权人员检测 | 定期人力巡逻 | Site View告警(下一版本) |
| 模型更新 | 需要现场停机 | 云端自动更新,零停机 |
尤其是仪表识别从23%跃升到98%——这不只是数字上的改善。只有达到这个水平,"不需要人每次都复核"的自动巡检才真正可行 。23%意味着人得跟在旁边盯着,98%则意味着人只需处理异常情况。
还有一个值得关注的变化:"agentic vision"这个新概念。模型不再是看一眼图片就给答案,而是通过在图像上标点、裁剪区域、再仔细查看等"scratchpad(草稿本)"动作,一步步推理 。这接近于人类为了准确读出表针,会凑近再看一眼的行为——模型在模仿这个过程。
从中国企业的视角看,该关注什么?
Spot在韩国已经部署到了汉华、现代、SK等(现代汽车集团是波士顿动力的母公司)。在中国,优必选、宇树、众多工厂也在快速部署四足机器人。所以这不是遥远的话题。机器人引进的决策维度,可能正在从"代码外包成本"转向"提示词运营能力" 。
- 第一步:机器人工作流设计师的角色在变
不再是"如何把每一步写成代码",而是"该构建哪些工具,让LLM自由组合"。把工具的输入、输出、错误信息用自然语言设计好,这种能力本身就是机器人运营能力。 - 第二步:留存巡检结果的"推理日志"
开启Transparent Reasoning后,每一次巡检都会记录LLM的判断依据。在中国安全生产法、《安全生产责任追究规定》等法规越发要求"为何这么判断"举证的时点,这些日志就是关键证据。 - 第三步:明确评估对云端模型的依赖
Zero-Downtime Upgrade虽然方便,但也意味着模型会自动改变。在发电站、半导体晶圆厂这种变更管理(MoC,Management of Change)极其严格的行业,"今天检查所用的模型"和"明天检查所用的模型"可能不一样,这点必须写入运营流程。 - 第四步:审查数据共享条款
使用AIVI-Learning时,设施数据必须与波士顿动力共享(限于BD内部使用)。中国企业的产业机密(半导体工艺、电站图纸等)是否能进入训练数据,法务和安全部门必须事先把关。
上手指南
- 第一步:把"代码型自动化"重新解读为自然语言提示词+工具层
有机器人/RPA工作流的公司,把现有的状态机逻辑拆分成"工具单位",再用自然语言写下每个工具的用途、限制、失败模式。这一过程本身就是引入LLM驱动自动化的第一步。 - 第二步:把准确率基线设在"无需人陪同"的水平
Gemini Robotics-ER 1.6的98%这种数字就是决策阈值。低于80%每次都得人复核,ROI跑不出来。只有达到95%以上的领域,才进入应用候选名单。 - 第三步:把Transparent Reasoning作为运营日志使用
引入巡检自动化时,不要只接收"结果",一并保存推理过程。事故发生时,这就是原因分析和监管应对的依据。 - 第四步:把模型自动更新策略写入运营流程
Zero-Downtime是便利,但在安全敏感行业,"是哪个模型版本完成了这次检查"必须可追踪。在运营流程里加上模型版本记录这一项。 - 第五步:区分可共享数据区和隔离数据区
不要把所有检查数据都送去外部训练。一般安全检查(通用)和独有机密(工艺、图纸)要走不同工作流。
深入了解
Boston Dynamics — Tools for Your To Do List with Spot and Gemini Robotics 由BD工程师亲自撰写,详细拆解家用清扫演示的内部架构。包含工具提示词的实际示例、SDK集成方式以及局限性 bostondynamics.com
Ars Technica — Robot dogs now read gauges and thermometers using Google Gemini 用非专业读者也能看懂的方式,分析Gemini Robotics-ER 1.6的性能跃升(23%→98%)和agentic vision概念,并梳理了安全模型的变化 arstechnica.com
The Robot Report — BD and Google DeepMind use Gemini to make Spot smarter 整理AIVI-Learning商用发布的官方公告。Zero-Downtime Upgrade、Transparent Reasoning以及多种资产支持的扩展,一页之内全部覆盖 therobotreport.com




