"白板上手写的to-do清单,Spot读完后就照着干了起来。"

3月,一段四足机器人Spot在客厅里把鞋子放进鞋柜、收拾空饮料罐的视频公开亮相 。比演示本身更有意思的,是它背后的架构。工程师写的代码全部加起来就是一组"自然语言提示词",任务顺序、失败处理、重试机制全都由Gemini Robotics来决定

这是什么?

波士顿动力(Boston Dynamics)与Google DeepMind合作,在一个月内接连发布了两项成果 。

(1) "To Do List with Spot" — 在家庭环境中通过自然语言指令完成清扫的实验性演示。Gemini Robotics-ER 1.5调用Spot的SDK来编排任务。(2) AIVI-Learning(商用产品) — 将Gemini Robotics-ER 1.6集成到Spot工业视觉检查能力中的正式发布版本。2026年4月8日起,自动向所有AIVI客户启用 。

一句话总结,机器人的工作方式正从"写代码"转向"自然语言指令"。而且不是停留在演示阶段,而是已经落地到工业现场。

  • 仪表识别准确率从23%跃升到98%
    从Gemini Robotics-ER 1.5升级到1.6并加入agentic vision(智能体视觉),就出现了这样的跳跃 。对照组:Gemini 3.0 Flash单独使用为67%。
  • 从写"状态机代码"的时间,变成写自然语言提示词的时间
    过去用代码定义每一步,现在只要用自然语言描述工具的用途,LLM就会自己生成执行序列 。
  • 现场用户能看到"为什么这么判断"(Transparent Reasoning,透明推理)
    AIVI不再只丢出检查结果,而是把推理过程也展示出来。这对安全和受监管行业来说是必备的变化 。
  • Zero-Downtime Upgrades(零停机升级)
    模型在云端自动更新。无需固件升级、无需停机,检查准确率自己就会提升 。

不写代码,究竟怎么让机器人干活?

传统的机器人编程是"状态机(state machine)"。移动→打开摄像头→识别物体→抓取→移动→放下,每一步都包括分支、失败处理、重试,全部用代码写死。环境一变,代码就要重写。

波士顿动力团队的做法不一样。他们在SDK之上搭建了一层"工具(tool)层",再用自然语言提示词描述每个工具的用途 。比如"TakePicture"工具的提示词是这样写的:

"该指令使用指定的摄像头拍照。在选择摄像头时存在微妙差异。GoTo到达目标位置后,务必先用夹爪摄像头拍摄——它信息最丰富。如果机器人手中已经拿着东西,可以(1)立即调用PutDown,或(2)用前置摄像头扫描该区域。但要注意,前置摄像头位置较低,不适合拍摄高处的物体。"

这不是一行代码。它是用自然语言描述机器人硬件的物理限制。而且这套方法真的能跑起来。演示当天,Spot直接用摄像头读取白板上手写的to-do清单,逐项调用工具,从头到尾完成了所有任务 。

现场反馈的变化如下。

指标 传统方式(代码型自动化) Spot × Gemini Robotics
新增任务 编写、测试、部署状态机代码 添加自然语言提示词,立即演示
仪表识别准确率 传统视觉模型 / Gemini Robotics-ER 1.5:23% Gemini Robotics-ER 1.6 + agentic vision:98%
模型更新 必须升级机器人固件,且要停机 Zero-Downtime,云端自动同步
判断依据查看 黑盒 Transparent Reasoning(展示推理步骤)
失败时处理 所有异常处理代码都得人工写 工具用自然语言反馈("手已被占满,无法抓取")→LLM重新规划

最后一行才是关键。工具用自然语言句子返回结果——"已抓取物体"、"手被占满,无法抓取"——Gemini Robotics看到后会重新思考下一步 。真正的变化是,人不必再把所有异常情况提前写进代码里

那工业现场到底有什么不同?

家庭清扫演示之所以有意思,不是因为"看起来神奇"。而是因为同一套架构原封不动地搬到了工业现场(AIVI-Learning)

Spot在汽车工厂、发电站、物流中心承担定期巡检任务。一次巡检要查的资产数以百计——仪表(模拟压力表、温度计)、视镜(罐体内液位)、传送带损伤、漏油痕迹、5S整理状态等等。要把这些准确读出来,靠的不是简单的物体识别,而是"复杂视觉推理"

巡检项 过去 集成Gemini Robotics-ER 1.6后
模拟仪表 / 视镜0~100%测量 只能识别物体,读不出数值 能精确提取数值
5S合规审计 人工巡检 自动化(可替代多班次人力)
托盘计数 手工 / 单独的视觉系统 AIVI直接处理
积水、未授权人员检测 定期人力巡逻 Site View告警(下一版本)
模型更新 需要现场停机 云端自动更新,零停机

尤其是仪表识别从23%跃升到98%——这不只是数字上的改善。只有达到这个水平,"不需要人每次都复核"的自动巡检才真正可行 。23%意味着人得跟在旁边盯着,98%则意味着人只需处理异常情况。

还有一个值得关注的变化:"agentic vision"这个新概念。模型不再是看一眼图片就给答案,而是通过在图像上标点、裁剪区域、再仔细查看等"scratchpad(草稿本)"动作,一步步推理 。这接近于人类为了准确读出表针,会凑近再看一眼的行为——模型在模仿这个过程。

从中国企业的视角看,该关注什么?

Spot在韩国已经部署到了汉华、现代、SK等(现代汽车集团是波士顿动力的母公司)。在中国,优必选、宇树、众多工厂也在快速部署四足机器人。所以这不是遥远的话题。机器人引进的决策维度,可能正在从"代码外包成本"转向"提示词运营能力"

  1. 第一步:机器人工作流设计师的角色在变
    不再是"如何把每一步写成代码",而是"该构建哪些工具,让LLM自由组合"。把工具的输入、输出、错误信息用自然语言设计好,这种能力本身就是机器人运营能力。
  2. 第二步:留存巡检结果的"推理日志"
    开启Transparent Reasoning后,每一次巡检都会记录LLM的判断依据。在中国安全生产法、《安全生产责任追究规定》等法规越发要求"为何这么判断"举证的时点,这些日志就是关键证据。
  3. 第三步:明确评估对云端模型的依赖
    Zero-Downtime Upgrade虽然方便,但也意味着模型会自动改变。在发电站、半导体晶圆厂这种变更管理(MoC,Management of Change)极其严格的行业,"今天检查所用的模型"和"明天检查所用的模型"可能不一样,这点必须写入运营流程。
  4. 第四步:审查数据共享条款
    使用AIVI-Learning时,设施数据必须与波士顿动力共享(限于BD内部使用)。中国企业的产业机密(半导体工艺、电站图纸等)是否能进入训练数据,法务和安全部门必须事先把关。

上手指南

  1. 第一步:把"代码型自动化"重新解读为自然语言提示词+工具层
    有机器人/RPA工作流的公司,把现有的状态机逻辑拆分成"工具单位",再用自然语言写下每个工具的用途、限制、失败模式。这一过程本身就是引入LLM驱动自动化的第一步。
  2. 第二步:把准确率基线设在"无需人陪同"的水平
    Gemini Robotics-ER 1.6的98%这种数字就是决策阈值。低于80%每次都得人复核,ROI跑不出来。只有达到95%以上的领域,才进入应用候选名单。
  3. 第三步:把Transparent Reasoning作为运营日志使用
    引入巡检自动化时,不要只接收"结果",一并保存推理过程。事故发生时,这就是原因分析和监管应对的依据。
  4. 第四步:把模型自动更新策略写入运营流程
    Zero-Downtime是便利,但在安全敏感行业,"是哪个模型版本完成了这次检查"必须可追踪。在运营流程里加上模型版本记录这一项。
  5. 第五步:区分可共享数据区和隔离数据区
    不要把所有检查数据都送去外部训练。一般安全检查(通用)和独有机密(工艺、图纸)要走不同工作流。

深入了解

Boston Dynamics — Tools for Your To Do List with Spot and Gemini Robotics 由BD工程师亲自撰写,详细拆解家用清扫演示的内部架构。包含工具提示词的实际示例、SDK集成方式以及局限性 bostondynamics.com

Ars Technica — Robot dogs now read gauges and thermometers using Google Gemini 用非专业读者也能看懂的方式,分析Gemini Robotics-ER 1.6的性能跃升(23%→98%)和agentic vision概念,并梳理了安全模型的变化 arstechnica.com

The Robot Report — BD and Google DeepMind use Gemini to make Spot smarter 整理AIVI-Learning商用发布的官方公告。Zero-Downtime Upgrade、Transparent Reasoning以及多种资产支持的扩展,一页之内全部覆盖 therobotreport.com