Featured image of post Anthropic把最强AI模型藏起来了——结果自己把它泄露了

Anthropic把最强AI模型藏起来了——结果自己把它泄露了

3月26日,Fortune独家披露:Anthropic正在秘密测试一个叫Mythos的模型,比Claude Opus更强,但因"网络安全风险史无前例"而刻意不发布。泄露的方式?他们自己不小心把文档放进了公开缓存。

3月26日,Fortune记者正在例行浏览一批公开可访问的数据缓存时,发现了一份不该出现在那里的文档。

文档来自Anthropic。内容是对一个叫"Capybara"的内部模型的技术评估。

读完之后,记者大概沉默了几秒。

这份文档描述的,是Anthropic有史以来最强大的模型——比Claude Opus更强,在网络安全基准测试上"远超所有现有AI模型"。文档同时警告:这个模型对网络安全构成"史无前例的风险",能够发现和利用漏洞的速度,“远超防御方应对能力”。

Anthropic把它叫做"step change"——一个在AI领域意味着"质的飞跃"的词。

然后,Fortune把这件事发出来了。

这个模型的公开名字,叫Claude Mythos。


一次意外,两个讽刺

这件事之所以值得写,不只是因为"有强大新模型"——那几乎是每个月都会发生的事。

这件事真正的看点,是两层叠加的讽刺。

第一层:Anthropic主动把这个模型藏起来了。

根据Fortune的报道,Anthropic很清楚Mythos的能力有多危险。他们内部评估认为,这个模型在网络攻击能力上"目前远超任何其他AI模型",并且"预示着即将到来的一波模型浪潮,其利用漏洞的能力将远超防御方的应对速度"。

正因为如此,Anthropic没有发布它。目前Mythos只对极少数专注于网络安全防御的机构开放早期访问,并且伴随着严格的使用限制。

这是历史上第一次,一家顶级AI公司因为"模型太危险"而主动选择不发布。

第二层:他们自己把它泄露了。

你没看错。

全球最强调AI安全的公司,花了大量精力构建"AI宪法"、发布安全承诺、拒绝军方合同——然后把最危险模型的技术文档,存到了一个公开可访问的数据缓存里。

Fortune记者不是通过黑客攻击发现的,也不是内部泄露,就是随手一翻,文档就在那里。

这个细节,本身就说明了很多问题。


Mythos到底有多强

根据泄露文档和后续报道,Mythos(内部代号Capybara)代表了Anthropic模型线的一个新层级——比Opus更大、更贵、能力更强。

能力提升最显著的三个维度:

AI攻防能力失衡:Mythos的网络安全能力让防御方应接不暇

1. 网络安全

这是Mythos最突出也最令人担忧的能力。文档描述它在网络安全基准测试上的分数"大幅超过"Claude Opus 4.6,具备发现软件漏洞、理解复杂攻击链、生成利用代码的能力。用Anthropic自己的话说:该模型的网络攻击能力"目前在所有AI模型中独占鳌头"。

这不是随便说说的。3月27日,Mythos泄露新闻出来后,多只网络安全概念股当日出现明显下跌——市场对AI模型可能降低攻击门槛的担忧,通过股价直接表达了出来。

2. 代码能力

在软件编程基准测试上,Mythos的分数同样"大幅超过"Opus。考虑到Opus在代码任务上已经是目前顶尖水平,Mythos的进步意味着它可能在自主编写复杂系统、调试大型代码库、进行架构设计等任务上有质的提升。

3. 学术推理

在需要多步骤逻辑推导、跨学科知识综合的任务上,Mythos也展现出了新的能力层级。这类能力往往和"真正的问题解决"最相关——不只是记住答案,而是能推导出答案。

总结起来,Mythos的定位是一个"更大、更贵、更强"的新层级,而不是Opus的迭代更新。如果一定要类比,它更像是Anthropic正在探索的"Opus之上"的存在。


为什么Anthropic决定不发布

这是整件事最值得思考的部分。

AI公司通常有强烈的发布冲动:新模型意味着媒体热度、竞争优势、更多付费用户。Anthropic选择主动克制,说明他们在内部评估后得出了一个严肃的结论——这个模型的攻击能力,已经超出了当前安全措施能够覆盖的范围

文档中有一段话值得重读:

“该模型预示着即将到来的一波模型浪潮,其利用漏洞的能力将远超防御方的应对速度。”

这不是"模型可能被滥用"的一般性风险描述,而是一个相当具体的判断:攻防不对称已经达到了某个临界点。一个足够强大的AI,如果被用于进攻,防御方将几乎没有时间反应。

Anthropic的应对方式是:把Mythos的访问权限严格限制在网络安全防御机构,要求使用者签署协议,并在模型层面加入防护措施。与此同时,他们显然在评估更系统的安全框架。

这种谨慎是真实的,不是公关表演——因为公关表演不需要把最强模型藏起来,那会直接损失竞争优势。


最强调安全的公司,犯了最初级的失误

然而,上面所有的谨慎,并不能掩盖这件事最荒诞的部分:

满是监控摄像头的AI安全机构,从一扇开着的窗户飘出了机密文件

Anthropic花了大量精力思考"如何让AI更安全地被人类使用",然后在数据管理这个最基础的环节出了问题。

把敏感文档存到公开可访问的数据缓存,是任何一家科技公司在入职培训里都会讲的基本失误。Fortune记者发现的方式,不是什么高超的信息挖掘技术,就是普通的信息检索。

这个对比很难不让人注意:

一边是对AI能力风险的高度警觉和严格管控,另一边是对基础信息安全的疏忽。

Anthropic目前尚未就这次数据泄露做出正式声明。但这件事折射出一个更普遍的问题——AI公司的安全工作,往往高度集中在"模型层面",而在传统的数据安全、运营安全层面,可能并不像外界想象的那样周全。


这对我们意味着什么

如果你是Claude的用户,最直接的问题可能是:Mythos什么时候能用到?

目前没有时间表。Anthropic没有宣布公开发布计划,泄露的文档也没有提到具体日期。考虑到他们对这个模型的安全评估,短期内大规模公开发布的可能性不高。

但这件事有几个更长远的含义值得关注:

AI能力的"危险阈值"正在成为真实问题。 不是科幻小说里的担忧,而是Anthropic这样的公司已经在内部做出"强到不能发布"判断的现实。这意味着AI安全不再只是道德讨论,而是会开始影响产品决策。

模型能力的公开透明度会越来越难。 如果最强的模型必须保密,我们就失去了独立评估和讨论的基础。Anthropic这次是"意外透明"——主动透明的前景并不乐观。

网络安全行业面临的变局是真实的。 多只网络安全股的下跌,反映的是一个合理的担忧:AI辅助攻击的门槛正在迅速降低。防御者需要更快地适应。


结语

这件事有一个奇特的结构:Anthropic因为意外泄露,反而让我们看到了他们原本想隐藏的东西——不只是一个强大模型的存在,还有他们在面对真正危险的AI能力时,已经开始认真思考"不发布"这个选项。

这种克制,在竞争激烈的AI行业里,本身就是一件值得记录的事。

不管这次的泄露是否会加速或推迟Mythos的公开计划,它至少清楚地告诉我们:AI能力的边界,已经到了一个以前从未有过的位置。


素材来源:Fortune独家报道 / CNBC:网络安全股反应 / Futurism:泄露方式分析


延伸阅读

关于 Mythos 模型本身

关于市场影响

关于 Anthropic 近期动态

RSS Feed 使用 Hugo 构建
主题 StackJimmy 设计