Anthropic把最强AI模型藏起来了——结果自己把它泄露了

3月26日，Fortune记者正在例行浏览一批公开可访问的数据缓存时，发现了一份不该出现在那里的文档。

文档来自Anthropic。内容是对一个叫"Capybara"的内部模型的技术评估。

读完之后，记者大概沉默了几秒。

这份文档描述的，是Anthropic有史以来最强大的模型——比Claude Opus更强，在网络安全基准测试上"远超所有现有AI模型"。文档同时警告：这个模型对网络安全构成"史无前例的风险"，能够发现和利用漏洞的速度，“远超防御方应对能力”。

Anthropic把它叫做"step change"——一个在AI领域意味着"质的飞跃"的词。

然后，Fortune把这件事发出来了。

这个模型的公开名字，叫Claude Mythos。

一次意外，两个讽刺

这件事之所以值得写，不只是因为"有强大新模型"——那几乎是每个月都会发生的事。

这件事真正的看点，是两层叠加的讽刺。

第一层：Anthropic主动把这个模型藏起来了。

根据Fortune的报道，Anthropic很清楚Mythos的能力有多危险。他们内部评估认为，这个模型在网络攻击能力上"目前远超任何其他AI模型"，并且"预示着即将到来的一波模型浪潮，其利用漏洞的能力将远超防御方的应对速度"。

正因为如此，Anthropic没有发布它。目前Mythos只对极少数专注于网络安全防御的机构开放早期访问，并且伴随着严格的使用限制。

这是历史上第一次，一家顶级AI公司因为"模型太危险"而主动选择不发布。

第二层：他们自己把它泄露了。

你没看错。

全球最强调AI安全的公司，花了大量精力构建"AI宪法"、发布安全承诺、拒绝军方合同——然后把最危险模型的技术文档，存到了一个公开可访问的数据缓存里。

Fortune记者不是通过黑客攻击发现的，也不是内部泄露，就是随手一翻，文档就在那里。

这个细节，本身就说明了很多问题。

Mythos到底有多强

根据泄露文档和后续报道，Mythos（内部代号Capybara）代表了Anthropic模型线的一个新层级——比Opus更大、更贵、能力更强。

能力提升最显著的三个维度：

AI攻防能力失衡：Mythos的网络安全能力让防御方应接不暇

1. 网络安全

这是Mythos最突出也最令人担忧的能力。文档描述它在网络安全基准测试上的分数"大幅超过"Claude Opus 4.6，具备发现软件漏洞、理解复杂攻击链、生成利用代码的能力。用Anthropic自己的话说：该模型的网络攻击能力"目前在所有AI模型中独占鳌头"。

这不是随便说说的。3月27日，Mythos泄露新闻出来后，多只网络安全概念股当日出现明显下跌——市场对AI模型可能降低攻击门槛的担忧，通过股价直接表达了出来。

2. 代码能力

在软件编程基准测试上，Mythos的分数同样"大幅超过"Opus。考虑到Opus在代码任务上已经是目前顶尖水平，Mythos的进步意味着它可能在自主编写复杂系统、调试大型代码库、进行架构设计等任务上有质的提升。

3. 学术推理

在需要多步骤逻辑推导、跨学科知识综合的任务上，Mythos也展现出了新的能力层级。这类能力往往和"真正的问题解决"最相关——不只是记住答案，而是能推导出答案。

总结起来，Mythos的定位是一个"更大、更贵、更强"的新层级，而不是Opus的迭代更新。如果一定要类比，它更像是Anthropic正在探索的"Opus之上"的存在。

为什么Anthropic决定不发布

这是整件事最值得思考的部分。

AI公司通常有强烈的发布冲动：新模型意味着媒体热度、竞争优势、更多付费用户。Anthropic选择主动克制，说明他们在内部评估后得出了一个严肃的结论——这个模型的攻击能力，已经超出了当前安全措施能够覆盖的范围。

文档中有一段话值得重读：

“该模型预示着即将到来的一波模型浪潮，其利用漏洞的能力将远超防御方的应对速度。”

这不是"模型可能被滥用"的一般性风险描述，而是一个相当具体的判断：攻防不对称已经达到了某个临界点。一个足够强大的AI，如果被用于进攻，防御方将几乎没有时间反应。

Anthropic的应对方式是：把Mythos的访问权限严格限制在网络安全防御机构，要求使用者签署协议，并在模型层面加入防护措施。与此同时，他们显然在评估更系统的安全框架。

这种谨慎是真实的，不是公关表演——因为公关表演不需要把最强模型藏起来，那会直接损失竞争优势。

最强调安全的公司，犯了最初级的失误

然而，上面所有的谨慎，并不能掩盖这件事最荒诞的部分：

满是监控摄像头的AI安全机构，从一扇开着的窗户飘出了机密文件

Anthropic花了大量精力思考"如何让AI更安全地被人类使用"，然后在数据管理这个最基础的环节出了问题。

把敏感文档存到公开可访问的数据缓存，是任何一家科技公司在入职培训里都会讲的基本失误。Fortune记者发现的方式，不是什么高超的信息挖掘技术，就是普通的信息检索。

这个对比很难不让人注意：

一边是对AI能力风险的高度警觉和严格管控，另一边是对基础信息安全的疏忽。

Anthropic目前尚未就这次数据泄露做出正式声明。但这件事折射出一个更普遍的问题——AI公司的安全工作，往往高度集中在"模型层面"，而在传统的数据安全、运营安全层面，可能并不像外界想象的那样周全。

这对我们意味着什么

如果你是Claude的用户，最直接的问题可能是：Mythos什么时候能用到？

目前没有时间表。Anthropic没有宣布公开发布计划，泄露的文档也没有提到具体日期。考虑到他们对这个模型的安全评估，短期内大规模公开发布的可能性不高。

但这件事有几个更长远的含义值得关注：

AI能力的"危险阈值"正在成为真实问题。 不是科幻小说里的担忧，而是Anthropic这样的公司已经在内部做出"强到不能发布"判断的现实。这意味着AI安全不再只是道德讨论，而是会开始影响产品决策。

模型能力的公开透明度会越来越难。 如果最强的模型必须保密，我们就失去了独立评估和讨论的基础。Anthropic这次是"意外透明"——主动透明的前景并不乐观。

网络安全行业面临的变局是真实的。 多只网络安全股的下跌，反映的是一个合理的担忧：AI辅助攻击的门槛正在迅速降低。防御者需要更快地适应。

结语

这件事有一个奇特的结构：Anthropic因为意外泄露，反而让我们看到了他们原本想隐藏的东西——不只是一个强大模型的存在，还有他们在面对真正危险的AI能力时，已经开始认真思考"不发布"这个选项。

这种克制，在竞争激烈的AI行业里，本身就是一件值得记录的事。

不管这次的泄露是否会加速或推迟Mythos的公开计划，它至少清楚地告诉我们：AI能力的边界，已经到了一个以前从未有过的位置。

素材来源：Fortune独家报道 / CNBC：网络安全股反应 / Futurism：泄露方式分析

延伸阅读

关于 Mythos 模型本身

关于市场影响

关于 Anthropic 近期动态