Anthropic Project Glasswing — AI 보안 이니셔티브 로고

cdn.sanity.io

Anthropic造出却不公开的模型——Claude Mythos与AI安全的转折点

Claude Mythos、Project Glasswing、AI网络安全、零日漏洞商业

Project Glasswing: Securing critical software for the AI era

Anthropic says its most powerful AI cyber model is too dangerous to release publicly

Anthropic built a model too risky to release

一个AI模型找出了潜伏27年的安全漏洞。这是安全专家审阅数十年、自动化工具测试500万次都没能发现的问题。然而,造出这个模型的公司却决定不公开它。

3秒速览

Claude Mythos研发完成 → 发现数千个零日漏洞 → 因风险过高决定不公开 → 启动Project Glasswing → 仅向12家巨头+40家机构开放

这是什么?

2026年4月7日,Anthropic正式公布了Project Glasswing。核心信息很简单——Anthropic打造的最新前沿模型Claude Mythos Preview在发现和利用软件漏洞方面已经超越了人类顶尖水平,因此决定不向公众开放。

Mythos没有经过专门的网络安全训练,仅凭编码能力和推理能力的提升就达到了这个水平。它在SWE-bench Verified上得分93.9%(Opus 4.6为80.8%),在SWE-bench Pro上得分77.8%(Opus 4.6为53.4%)。Theo用一句话总结得很到位——"Mythos之于Opus,就像Opus之于Sonnet"。

更让人震撼的是具体表现。在Firefox漏洞利用生成任务中,Opus 4.6尝试数百次才做出2个,而Mythos一口气做出了181个。此外它还发现了这些漏洞:

OpenBSD潜伏27年的Bug
在公认全球安全性最高的操作系统OpenBSD中,发现了一个潜藏27年的远程崩溃漏洞。只要建立连接就能让系统瘫痪。
FFmpeg潜伏16年的漏洞
这个几乎所有软件都在使用的视频编码器,其缺陷被自动化工具测试了500万次都没有发现,Mythos却找了出来。
Linux内核权限提升链
自主发现多个漏洞并将其串联,构建出从普通用户权限一路到系统完全接管的攻击路径。

181个

Firefox漏洞利用(Opus仅2个)

93.9%

SWE-bench Verified得分

1亿美元

防御侧投入额度

这些成果全部是在没有人工干预的情况下完全自主完成的。Mythos独立阅读代码、寻找漏洞并开发利用程序。

有什么不同?

关键在于"AI公司因为自家模型风险过高而决定不公开"这是前所未有的决定。Anthropic前沿红队的网络安全负责人Newton Cheng在接受VentureBeat采访时说了这样一段话。

"考虑到AI进步的速度,这种能力扩散只是时间问题。包括扩散到那些没有意愿进行安全部署的行为者手中。其带来的冲击——无论是经济、公共安全还是国家安全层面——都可能是严重的。"
— Newton Cheng, Anthropic前沿红队

	传统AI安全工具	Claude Mythos
方法论	模式匹配(已知漏洞数据库)	基于推理(理解代码上下文)
自主性	遵循人工设定的规则	完全自主探索+漏洞利用开发
复合攻击	仅检测单个漏洞	自动串联多个漏洞
发现范围	局限于已知模式	涵盖数十年未被发现的零日漏洞
是否公开	任何人都能使用	仅提供给有限合作方

Platformer的Casey Newton一针见血地指出——"我们站在一个令人深感不安的前提上:保护自己免受AI模型危害的唯一办法,就是先把那个危险的模型造出来"。

安全行业的反应更加现实。Corridor首席产品官、前Facebook/Yahoo安全负责人Alex Stamos发出了这样的警告。

"开源权重模型在漏洞发现能力上追平前沿模型,大概只剩六个月左右的时间。一旦到了那个节点,所有勒索软件团伙都能在毫无痕迹的情况下找到漏洞并将其武器化。"
— Alex Stamos, 前Facebook安全负责人

留给防御方的时间不是"几年",而是"几个月"——这是业界的共识。

Project Glasswing——武装防御方的先手棋

Anthropic的应对方案就是Project Glasswing。核心结构如下:

12家科技巨头联盟
AWS、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA、Palo Alto Networks全部参与。连竞争对手Google和Microsoft都站在同一阵营,足见这次威胁的严重程度。
40家以上机构获得访问权
为构建或维护核心软件基础设施的40多家机构提供Mythos Preview访问权。这是优先保护开源生态系统的考量。
1亿美元使用额度+400万美元捐赠
Anthropic承担防御研究用途的模型调用费用,并向Linux Foundation和Apache软件基金会直接捐款。
负责任披露流水线
不会把发现的漏洞一股脑儿甩给开源维护者。由专业团队人工核验后,按维护者能承受的节奏公开。打补丁后预留45天缓冲期再披露技术细节。

一个尴尬的情况

Anthropic自诩为"史上最强网络安全模型的安全守护者",但就在3月份,CMS配置错误导致3000份关于Mythos的内部文档外泄,Claude Code的51万行源代码还通过npm被公开了3小时。两起事件都没造成核心系统被攻破,但对一家即将托管国家基建级安全工具的公司而言,这样的插曲实在令人不安。

商业背景——为什么选在这个时候?

Glasswing发布当天,Anthropic还同步公布了年营收300亿美元(同比增长3倍)、与Google-Broadcom签订的3.5GW算力合约,以及前Microsoft高管Eric Boyd的加盟消息。另有报道称其最快可能在2026年10月启动IPO。

韩国科技媒体THE ELEC是这样解读这个时间点的——"在防御倡议的表面之下,暗含着构建IPO叙事、强化与美国国防部博弈的筹码、争取合作伙伴企业支持的多重意图"。

值得玩味的是,CrowdStrike、Palo Alto Networks这些本身拥有自研AI安全技术的公司也加入了进来。有评论认为,"这相当于它们承认自家的安全AI挡不住Mythos级别的攻击"。

上手指南:这件事跟我有什么关系?

如果你是做软件的
6个月内,开源权重模型也会具备类似的漏洞发现能力。从现在起就该重新梳理安全流水线。没有理由再推迟引入AI安全工具了。
如果你是企业决策者
"以AI防御AI造成的安全威胁"这种新范式已经开启。该从这个角度重新审视安全预算和战略了。
如果你关注AI行业
这是AI公司首次正式承认"自家模型具有危险性"的案例。这不是营销话术,可能成为AI安全讨论的新基准点。它也会直接影响监管层面的讨论。

防御方的时间表

Anthropic承诺在90天内公开披露项目进展和经验总结。那之前的这段时间是"防御方的先手期"。如果你是安全从业者,不妨考虑申请Anthropic的Claude for Open Source计划。

🔗