Boston Dynamics Spot using Gemini Robotics in residential demo

bostondynamics.com

对Spot说一句

Spot, Boston Dynamics, Gemini Robotics, AIVI-Learning, 산업 자동화商业

Tools for Your To Do List with Spot and Gemini Robotics

AIVI-Learning Is Now Powered by Google Gemini Robotics

Boston Dynamics' robot dog now reads gauges and thermometers with Google's AI

"白板上手写的to-do清单,Spot读完后就照着干了起来。"

3月,一段四足机器人Spot在客厅里把鞋子放进鞋柜、收拾空饮料罐的视频公开亮相。比演示本身更有意思的,是它背后的架构。工程师写的代码全部加起来就是一组"自然语言提示词",任务顺序、失败处理、重试机制全都由Gemini Robotics来决定。

这是什么?

波士顿动力(Boston Dynamics)与Google DeepMind合作,在一个月内接连发布了两项成果。

(1) "To Do List with Spot" — 在家庭环境中通过自然语言指令完成清扫的实验性演示。Gemini Robotics-ER 1.5调用Spot的SDK来编排任务。(2) AIVI-Learning(商用产品) — 将Gemini Robotics-ER 1.6集成到Spot工业视觉检查能力中的正式发布版本。2026年4月8日起,自动向所有AIVI客户启用。

一句话总结,机器人的工作方式正从"写代码"转向"自然语言指令"。而且不是停留在演示阶段,而是已经落地到工业现场。

仪表识别准确率从23%跃升到98%
从Gemini Robotics-ER 1.5升级到1.6并加入agentic vision(智能体视觉),就出现了这样的跳跃。对照组:Gemini 3.0 Flash单独使用为67%。
从写"状态机代码"的时间,变成写自然语言提示词的时间
过去用代码定义每一步,现在只要用自然语言描述工具的用途,LLM就会自己生成执行序列。
现场用户能看到"为什么这么判断"(Transparent Reasoning,透明推理)
AIVI不再只丢出检查结果,而是把推理过程也展示出来。这对安全和受监管行业来说是必备的变化。
Zero-Downtime Upgrades(零停机升级)
模型在云端自动更新。无需固件升级、无需停机,检查准确率自己就会提升。

不写代码,究竟怎么让机器人干活?

传统的机器人编程是"状态机(state machine)"。移动→打开摄像头→识别物体→抓取→移动→放下,每一步都包括分支、失败处理、重试,全部用代码写死。环境一变,代码就要重写。

波士顿动力团队的做法不一样。他们在SDK之上搭建了一层"工具(tool)层",再用自然语言提示词描述每个工具的用途。比如"TakePicture"工具的提示词是这样写的:

"该指令使用指定的摄像头拍照。在选择摄像头时存在微妙差异。GoTo到达目标位置后,务必先用夹爪摄像头拍摄——它信息最丰富。如果机器人手中已经拿着东西,可以(1)立即调用PutDown,或(2)用前置摄像头扫描该区域。但要注意,前置摄像头位置较低,不适合拍摄高处的物体。"

这不是一行代码。它是用自然语言描述机器人硬件的物理限制。而且这套方法真的能跑起来。演示当天,Spot直接用摄像头读取白板上手写的to-do清单,逐项调用工具,从头到尾完成了所有任务。

现场反馈的变化如下。

指标	传统方式(代码型自动化)	Spot × Gemini Robotics
新增任务	编写、测试、部署状态机代码	添加自然语言提示词,立即演示
仪表识别准确率	传统视觉模型 / Gemini Robotics-ER 1.5:23%	Gemini Robotics-ER 1.6 + agentic vision:98%
模型更新	必须升级机器人固件,且要停机	Zero-Downtime,云端自动同步
判断依据查看	黑盒	Transparent Reasoning(展示推理步骤)
失败时处理	所有异常处理代码都得人工写	工具用自然语言反馈("手已被占满,无法抓取")→LLM重新规划

最后一行才是关键。工具用自然语言句子返回结果——"已抓取物体"、"手被占满,无法抓取"——Gemini Robotics看到后会重新思考下一步。真正的变化是,人不必再把所有异常情况提前写进代码里。

那工业现场到底有什么不同?

家庭清扫演示之所以有意思,不是因为"看起来神奇"。而是因为同一套架构原封不动地搬到了工业现场(AIVI-Learning) 。

Spot在汽车工厂、发电站、物流中心承担定期巡检任务。一次巡检要查的资产数以百计——仪表(模拟压力表、温度计)、视镜(罐体内液位)、传送带损伤、漏油痕迹、5S整理状态等等。要把这些准确读出来,靠的不是简单的物体识别,而是"复杂视觉推理" 。

巡检项	过去	集成Gemini Robotics-ER 1.6后
模拟仪表 / 视镜0~100%测量	只能识别物体,读不出数值	能精确提取数值
5S合规审计	人工巡检	自动化(可替代多班次人力)
托盘计数	手工 / 单独的视觉系统	AIVI直接处理
积水、未授权人员检测	定期人力巡逻	Site View告警(下一版本)
模型更新	需要现场停机	云端自动更新,零停机

尤其是仪表识别从23%跃升到98%——这不只是数字上的改善。只有达到这个水平,"不需要人每次都复核"的自动巡检才真正可行。23%意味着人得跟在旁边盯着,98%则意味着人只需处理异常情况。

还有一个值得关注的变化:"agentic vision"这个新概念。模型不再是看一眼图片就给答案,而是通过在图像上标点、裁剪区域、再仔细查看等"scratchpad(草稿本)"动作,一步步推理。这接近于人类为了准确读出表针,会凑近再看一眼的行为——模型在模仿这个过程。

从中国企业的视角看,该关注什么?

Spot在韩国已经部署到了汉华、现代、SK等(现代汽车集团是波士顿动力的母公司)。在中国,优必选、宇树、众多工厂也在快速部署四足机器人。所以这不是遥远的话题。机器人引进的决策维度,可能正在从"代码外包成本"转向"提示词运营能力" 。

第一步:机器人工作流设计师的角色在变
不再是"如何把每一步写成代码",而是"该构建哪些工具,让LLM自由组合"。把工具的输入、输出、错误信息用自然语言设计好,这种能力本身就是机器人运营能力。
第二步:留存巡检结果的"推理日志"
开启Transparent Reasoning后,每一次巡检都会记录LLM的判断依据。在中国安全生产法、《安全生产责任追究规定》等法规越发要求"为何这么判断"举证的时点,这些日志就是关键证据。
第三步:明确评估对云端模型的依赖
Zero-Downtime Upgrade虽然方便,但也意味着模型会自动改变。在发电站、半导体晶圆厂这种变更管理(MoC,Management of Change)极其严格的行业,"今天检查所用的模型"和"明天检查所用的模型"可能不一样,这点必须写入运营流程。
第四步:审查数据共享条款
使用AIVI-Learning时,设施数据必须与波士顿动力共享(限于BD内部使用)。中国企业的产业机密(半导体工艺、电站图纸等)是否能进入训练数据,法务和安全部门必须事先把关。

上手指南

第一步:把"代码型自动化"重新解读为自然语言提示词+工具层
有机器人/RPA工作流的公司,把现有的状态机逻辑拆分成"工具单位",再用自然语言写下每个工具的用途、限制、失败模式。这一过程本身就是引入LLM驱动自动化的第一步。
第二步:把准确率基线设在"无需人陪同"的水平
Gemini Robotics-ER 1.6的98%这种数字就是决策阈值。低于80%每次都得人复核,ROI跑不出来。只有达到95%以上的领域,才进入应用候选名单。
第三步:把Transparent Reasoning作为运营日志使用
引入巡检自动化时,不要只接收"结果",一并保存推理过程。事故发生时,这就是原因分析和监管应对的依据。
第四步:把模型自动更新策略写入运营流程
Zero-Downtime是便利,但在安全敏感行业,"是哪个模型版本完成了这次检查"必须可追踪。在运营流程里加上模型版本记录这一项。
第五步:区分可共享数据区和隔离数据区
不要把所有检查数据都送去外部训练。一般安全检查(通用)和独有机密(工艺、图纸)要走不同工作流。

深入了解

Boston Dynamics — Tools for Your To Do List with Spot and Gemini Robotics 由BD工程师亲自撰写,详细拆解家用清扫演示的内部架构。包含工具提示词的实际示例、SDK集成方式以及局限性 bostondynamics.com

Ars Technica — Robot dogs now read gauges and thermometers using Google Gemini 用非专业读者也能看懂的方式,分析Gemini Robotics-ER 1.6的性能跃升(23%→98%)和agentic vision概念,并梳理了安全模型的变化 arstechnica.com

The Robot Report — BD and Google DeepMind use Gemini to make Spot smarter 整理AIVI-Learning商用发布的官方公告。Zero-Downtime Upgrade、Transparent Reasoning以及多种资产支持的扩展,一页之内全部覆盖 therobotreport.com

常见问题

这不就是一段演示用的营销视频吗?有证据证明它真能在工业现场跑起来?

这两件事要分开看。家庭清扫演示是2025年黑客马拉松的成果,BD明确标注为"实验性"。而AIVI-Learning(工业版)是从2026年4月8日起,正式向所有现有AIVI客户启用的商用产品。仪表识别准确率98%等数字都是基于工业现场应用前提得出的,5S合规、托盘计数、视镜测量等具体的工业巡检项目都已经在用了。

Gemini Robotics-ER 1.6普通开发者也能用吗?API公开了吗?

DeepMind把Gemini Robotics-ER 1.6作为"机器人的高层推理模型(high-level reasoning model for a robot)"公开,普通开发者也能访问。不过如果没有像Spot这样的SDK、物理操作机械臂、Autowalk等基础设施,引进的关键就不在模型本身,而在于如何把"工具层"适配到自有机器人上。对于中国企业来说,在协作机器人或物流AGV上加一层自然语言提示词接口,会是更现实的起点。

性能从23%飙到98%,总该有什么坑吧?它在哪些场景下表现不好?

BD自己也明确指出了几点局限。(1)Gemini Robotics只能在通过SDK定义的"工具"范围内工作,无法发明新的能力。(2)安全模型有所加强,但hallucination(幻觉)并未归零。Ars Technica的分析提到1.5模型曾出现"把不存在的手推车识别成存在"的案例——1.6减少了,但不是零。(3)仪表98%也是"agentic vision"启用时的数据,基线是86%。要根据运营环境来确定人工复核的比例。

从中国监管(安全生产法等)角度看,自动巡检能信任到什么程度?

先说结论——还做不到100%信任。但Transparent Reasoning的引入是一个很大的变化。事故发生时,可以把"AI为什么判断为正常"的推理过程作为日志保留下来,这就能作为"履行注意义务"的举证材料。不过模型会在云端自动升级,所以"巡检时所用的模型版本"也必须在运营日志里同步留存,事后才能追踪。