用过Claude Code的开发者,多少都动过这个念头:"能不能把它用得更系统一点?"Y Combinator CEO Garry Tan把答案直接开源了,项目名叫gstack。上线GitHub两周,Star数就突破了4.5万。
这是什么?
gstack是一组面向Claude Code的自定义斜杠命令(slash command)合集。核心思路很简单:与其对AI说"帮我写代码",不如给它一个明确角色,比如"你现在是QA主管"或"你是资深设计师"。
整套工具包含28个技能,每个技能对应一个专家角色。CEO负责审视产品方向,工程经理锁定架构,设计师把AI糊弄过去的垃圾(slop)挑出来,QA打开真实浏览器跑测试,发布工程师提交PR——各司其职。
安装过程只要30秒。一行git clone就完事了。所有技能都是Markdown文件,谁都能读、谁都能改,没有SaaS锁定,也没有任何遥测。MIT许可证。
有什么不同?
一般用AI编码工具的套路是这样的:人丢一个提示词,AI回答,人再判断结果好坏。问题在于,同一个AI会话回头审视自己写的代码,很容易陷入"自我肯定循环(self-affirmation spiral)"。
gstack把这个结构打破了。每个阶段换一个"专家"上场,后一环独立验证前一环的产出。
| 阶段 | 主要技能 | 角色职责 |
|---|---|---|
| 策划 | /office-hours、/plan-ceo-review |
用YC Office Hour风格的6个问题撬动你的前提假设 |
| 设计 | /plan-eng-review、/plan-design-review |
锁定架构、对设计打0-10分 |
| 开发 | /review、/investigate |
Staff Engineer级代码审查、体系化调试 |
| 测试 | /qa、/cso |
真实浏览器QA、OWASP Top 10 + STRIDE安全审计 |
| 部署 | /ship、/land-and-deploy |
从PR生成到生产环境健康检查,一条命令搞定 |
| 复盘 | /retro |
周复盘、按项目追踪发布记录 |
/browse这个技能特别值得关注。它把真实的Chromium浏览器接入Claude Code,支持点击、截图等浏览器自动化操作。冷启动3~5秒,之后每条命令100~200毫秒。Cookie和登录状态跨会话保留,需要登录鉴权的测试也能跑。
还有/codex技能,它会调起OpenAI Codex CLI来拿"第二意见"。等于让竞争对手模型来审Claude写的代码。跨模型交叉分析这个思路本身就够有意思。
This is my open source software factory. I use it every day. I'm sharing it because these tools should be available to everyone.
— Garry Tan, Y Combinator CEO
争议也不小
反响并非一边倒。TechCrunch甚至直接用"so much love, and hate"来形容这种两极分化。
批评主要集中在两点。第一,其实很多开发者早就自己攒了类似的提示词集。gstack在技术层面并没有多新颖,之所以吃到这么多关注,更多是因为Tan顶着YC CEO的光环。
第二是安全隐患。Hacker News上一位开发者分享的案例挺扎眼:Claude Code的智能体花了70分钟,反复把Staging URL注入到生产环境配置里,整个过程exit code都显示正常。教训很清楚:自主智能体跑得越快,护栏就越关键。
注意:自主智能体是一把双刃剑
gstack虽然带了/careful、/freeze、/guard等安全技能,但在生产环境里还是建议加一层独立的审计机制。速度和控制之间的平衡,要时刻放在心上。
上手指南
- 先确认你装了Claude Code
gstack跑在Claude Code之上,需要Anthropic订阅。另外还要Bun v1.0+和Git。 - 按30秒安装流程执行
git clone https://github.com/garrytan/gstack.git ~/.claude/skills/gstack && cd ~/.claude/skills/gstack &&./setup—— 这一行就搞定。 - 从/office-hours开始用
gstack的哲学不是上来就写代码,而是先用6个强制追问来确认"这个功能到底值不值得做"。 - 不必全套都用
28个技能没必要照单全收。光是用/review和/qa,代码质量就会有明显变化。挑适合自己工作流的那几个就行。 - 一定要定制化
所有技能都是Markdown文件。真正的用法是按自己团队的约定、技术栈、评审标准去改。原样照搬只能发挥一半效果。
重点
gstack的真正价值不在那28条命令本身,而在于"把AI从通用助手拆成按角色分工的专家,结果就是不一样"这个模式。这套思路不止适用于写代码——内容创作、数据分析、客户支持,哪里都能搬过去用。




