编程智能体市场再次震动。2026年5月14日,xAI正式发布Grok Build测试版,成为继Claude CodeCodex CLI之后第三个入局终端编程智能体竞争的玩家。

有意思的是xAI的策略。他们没有追求基准分数,而是选择了一种全新的方式——8个智能体同时独立运行,各自在独立分支上编码来建立差异化。

30秒总结
任务输入 计划审核·批准 8个并行智能体 独立Git分支 结果合并

这是什么东西?

直到2025年中期,终端编程智能体实际上只有两强:AnthropicClaude CodeOpenAI的Codex CLI。xAI的Grok在编程能力上落后是公开的秘密,连Elon Musk本人都承认了。

Grok Build就是xAI填补这一差距的正面出击。他们不是把通用模型调整用于编程,而是专门为智能体工作流程从头训练的grok-build-0.1模型。

5月14日以SuperGrok Heavy(月299美元)独享方式发布,5月25日起向SuperGrok(月30美元)和X Premium+用户开放。

8个
最大并行智能体数
256K
上下文Token
70.8%
SWE-Bench Verified

结构上值得关注的是本地优先(Local-first)架构。源代码不会传输到xAI服务器,甚至支持气隙(Air-gap)环境。这直接解决了金融、医疗、政府等对安全性敏感领域中Claude Code和Codex CLI难以采用的关键障碍。

同时支持MCP(模型上下文协议)。已经在Claude Code中使用GitHub、Linear、Slack MCP集成的团队,无需重新配置即可迁移到Grok Build。

和Claude Code有什么不同?

从数字看,Grok Build处于劣势。SWE-Bench Verified基准:Claude Code 87.6%,Codex CLI 88.7%,Grok Build仅70.8%,相差约17个百分点。 这不是四舍五入的误差,在复杂的多文件任务中是实际可感知的差距。

但xAI瞄准的是另一场游戏。不是基准测试,而是用"怎么工作"的结构差异来决胜负。

Claude Code Codex CLI Grok Build
SWE-Bench 87.6% 88.7% 70.8%
并行智能体 支持 支持 最多8个(默认)
计划预审批 可选 不支持 默认开启
本地优先 不支持 不支持 支持(气隙可用)
MCP兼容 原生 不支持 原生
入门价格 $20/月(Pro) $20/月(ChatGPT+) $30/月(SuperGrok)

两个核心差异点:

计划预审批(Plan Mode默认开启): Grok Build在修改任何代码前,必须先写出计划。开发者审阅批准后执行才开始。Claude Code有Plan Mode但是可选项,Codex CLI则完全没有。通过"计划→审核→执行"三步门控,从结构上防止智能体跑偏。

真正的并行执行: 8个智能体各自在独立的Git分支上同时工作。以遗留认证模块重构为例,一个智能体处理核心逻辑,另一个写测试,再一个更新文档,同时进行。有评测报告显示约15分钟内完成含认证和测试的完整CRUD API。

Grok Build真正出彩的场景

大型代码仓库重构、需要同时验证多个假设的Bug追踪、架构审查等"需要同时探索多个方向"的工作。简单功能添加或一对一调试,Claude Code和Codex CLI更稳定。

核心总结:如何开始

  1. 安装
    执行官方安装脚本。支持macOS/Linux,Windows需要WSL2环境。
    curl -fsSL https://x.ai/cli/install.sh | bash
  2. 登录
    用SuperGrok或X Premium+账号进行认证。
    grok-build login
  3. 从计划模式开始
    加--plan参数运行,先显示计划草案。确认修改后批准,执行才开始。
    grok-build --plan "重构认证模块"
  4. 使用并行智能体
    复杂任务用--parallel指定同时运行的智能体数量。建议从2-4个开始,熟悉后再增加。
    grok-build --parallel=4 "任务描述"
  5. 迁移MCP集成
    现有的Claude Code MCP配置文件直接被识别,GitHub、Linear等集成无需重新配置。

注意费用结构

月30美元的SuperGrok套餐仅提供基本访问权限。完整的并行智能体和Arena Mode需要SuperGrok Heavy(前6个月优惠价$99/月,之后$299/月)。纯API使用:输入每百万Token $0.20,输出$1.50。

深入了解

ChatForest: Grok Build vs Claude Code vs Codex CLI深度评测 从SWE-Bench比较到实际PR生成测试,最全面的基准测试评测 chatforest.com

Codersera: 按使用场景的决策矩阵 不同场景下应选择哪个智能体的实战指南 codersera.com

ByteIota: Grok Build诚实评测 均衡分析优势与局限的开发者视角评测 byteiota.com

CIO Dive: xAI进军编程智能体市场分析 企业视角下的市场定位与竞争格局分析 ciodive.com

Engadget: Grok Build发布报道 xAI官方发布与市场背景 engadget.com