Meta 放话 Watermelon 追平 GPT-5.5 时，硅谷正在把 GLM-5.2 推上 OpenRouter 榜首

Sat, 04 Jul 2026 09:00:00 +0800

7 月的头几天，硅谷同时传出两条方向几乎相反的消息。

一条来自 Meta。它的超级智能负责人 Alexandr Wang 在内部全员大会（town hall）上告诉员工，公司正在训练的新模型 Watermelon 已经追平 OpenAI 的 GPT-5.5，依据是他引用的"业内密切关注的 AI 基准测试（benchmark）"。这条消息被 Business Insider 在 7 月 3 日报道后，很快登上科技新闻聚合站 Techmeme。

另一条来自 Reuters 几乎同一时段的报道。北京初创公司 Z.ai（智谱）上个月发布的 GLM-5.2，在硅谷开发者社区里被追捧成"mini DeepSeek moment（迷你 DeepSeek 时刻）"。它在模型路由平台 OpenRouter 上的调用量超过了 Anthropic 的模型，在 Artificial Analysis 的 LLM 智能排行榜上排到第五，在 Code Arena 的前端编码榜单上位列第二，而成本大约只有美国闭源前沿模型（frontier model）的六分之一。

把这两条新闻并排放在一起读，会比单看任何一条都更说明问题：一家硅谷巨头正在用"还在训练的模型"对外喊话，而它的同行们已经把一个中国开源模型塞进了自己的日常工作流。

Watermelon 是什么，以及它还不是什么

按 Business Insider 援引两位知情人的描述，Watermelon 是 Meta 超级智能实验室的下一代模型，接在前代 Avocado 之后。Avocado 是 4 月发布的 Muse Spark 的内部代号，那次发布被官方称为 Meta 超级智能实验室的首战。Wang 在全员大会上说，Watermelon 用的算力是 Avocado 的"一个数量级"，按通常理解大约是十倍。

但除了这句"追平 GPT-5.5"，几乎什么都还没有。

Watermelon 仍在训练，没有公开发布。Wang 没有点名引用的是哪一套基准，也没有给出分数。Meta 既没有放出技术报告，也没有提供模型给第三方测试，公司面对 Business Insider 的置评请求选择了拒绝。换种说法，这是一条只有结论、没有方法、也没有可复现路径的声明。

这也不全是 Meta 一家的问题。同一时间 OpenAI 的 GPT-5.6 系列，6 月底以有限预览的形式给到少数合作伙伴，公开发布被推迟，据称与美国政府的安全要求有关。前沿模型的发布节奏，正在从"发布即评测"滑向"预告即营销"。Watermelon 只是把这种滑向推到了一个更明显的极端：连训练都没结束，对标就已经定好了。

Wang 在 X 上也做了公开呼应。他说 Muse Spark 的更新很快到来，编码和智能体（agentic）能力会有大幅提升；被用户追问 Meta 什么时候能有对标 Anthropic Claude Opus 的编码模型时，他回了一句 “pretty soon”。这种话术本身没什么错，但它和"追平 GPT-5.5"的内部说法叠在一起，给到外界的更像是一组营销信号，而不是一份技术交付。

同一周，硅谷在用什么

Reuters 那篇报道，比起 GLM-5.2 的分数，更值得看的是谁在替它背书。

特朗普政府前 AI 沙皇 David Sacks 在 All-In 播客里说，GLM-5.2 比 Anthropic 的 Opus 4.8 差一点点，但和 OpenAI 的 GPT-5.5 在同一档。Snowflake 的 CEO Sridhar Ramaswamy、知名投资人 Marc Andreessen 都公开称赞过它。有个背景得提一下：Sacks 说这番话的时机，正好是华盛顿解除对 Anthropic 的 Fable 和 Mythos 模型限制的前一周。换句话说，美国自研前沿模型在那段时间处于被自家政府卡住的状态，GPT-5.6 又没能大面积放开，这给了 GLM-5.2 一个非常具体的窗口。

开发者层面的数据更直接。GLM-5.2 在 OpenRouter 上的调用量超过了 Anthropic。Code Arena 前端编码榜第二，Artificial Analysis 综合榜第五，成本大约是同档闭源模型的六分之一。前 Hugging Face 亚太负责人王铁震的那段话被 Reuters 引用得最多：GLM-5.2 带来的真正变化，是开源模型变成了即插即用（plug-and-play）的产品，部署下去不用复杂微调（fine-tuning）就能直接跑，“这极大降低了开源采用的门槛”。

放到 Watermelon 的背景下看，这个对比有点扎眼：一边是还在训练、没有分数、没有模型的声明，一边是已经上线、被硅谷精英背书、价格还便宜六分之一的现货。两件事虽然发生在同一个月，讨论的其实不是同一件事。

放话和采用，正在变成两套评价体系

过去几年讨论"谁领先"，默认的标尺是 benchmark 分数。谁的 SWE-bench Pro 高、谁的 MMLU 高，谁就领先。这套标尺有两个隐含假设：分数可以被独立复现，以及分数会转化为采用。

Watermelon 事件同时踩了这两个假设。当一家公司可以在模型还在训练的时候就宣布"追平"，而且不给出任何可复现的依据，benchmark 作为公共标尺的公信力就被稀释了一点。它没有失效，但它开始需要和"是谁说的、依据是什么、能不能验证"这些上下文一起被阅读。

左：基准分数（声明）；右：采用量（事实）。

而一个模型到底有没有被产业里真正用起来，看的是采用，不是榜单。GLM-5.2 在 OpenRouter 上的调用量比任何榜单都硬，因为它代表开发者在拿它干活。智库 RAND 今年早些时候基于 135 个国家的流量数据做过统计，自 DeepSeek R1 在去年 1 月发布之后两个月，中国大语言模型（LLM）的全球市场份额从 3% 跳到了 13%。这个数字后来有没有继续往上走，需要更长时间的跟踪，但方向比较清楚：采用正在往中国开源模型这一侧偏，而且在发展中国家和与北京经贸关系密切的地区更明显。

这不代表中国模型没有障碍。Reuters 同样提到，受监管行业里的美国企业，尤其是银行业和网络安全，对把中国模型塞进自己的 AI 技术栈仍有明显顾虑，企业系统的迁移周期通常要几个月。Counterpoint Research 的分析师 Wei Sun 指出，欧盟和美国的一些客户、合作伙伴和受监管行业，不管技术表现或价格如何，都可能不愿意接受中国模型。这部分现实决定了 GLM-5.2 的渗透是局部的、部分路由式的（partial routing），不会是一夜替换。Hello China Tech 的创始人 Poe Zhao 那句判断比较中肯：开发者真正在意的不是模型来自哪里，而是它好不好用、贵不贵、能不能稳定部署和访问。

关于那个流传更广的说法

社交媒体上还流传着一个更具戏剧性的版本：Alexandr Wang 本人把 GLM-5.2、Kimi 2.7 这些中国模型设成了自己的默认模型。这个说法目前主要见于一两条科技类的二手社媒帖，Business Insider 和 Reuters 的原始报道里都没有佐证。在出现更可信的来源之前，把它当成一个传播中的说法比较稳妥，先别当成已确认的事实。

不过就算没有这条传闻，事情本身也已经够说明问题了。Wang 的内部喊话和 GLM-5.2 在硅谷被采用，是同一周里实实在在发生的两件事。一边是 Meta 把年度资本支出再度上调到 1250 亿到 1450 亿美元押注自研，另一边是硅谷的精英和开发者已经把一个中国开源模型用进了日常。这种对比摆在那里，比任何个人的"双标"八卦都更值得想一想。

Watermelon 和 GLM-5.2，背后是两种做 AI 的节奏

把这两个名字放在一起，不是为了凑一个"中美对决"的叙事。它们更像是 2026 年中 AI 行业两种节奏的代表。

Watermelon 走的是重资本、闭源、期货化的路子：砸天价算力，先把对标喊出去，再慢慢补上模型本身。这种节奏靠的是声明和信任，外部只能等它交付。

左路：声明·信任（期货）；右路：采用·事实（现货）。

GLM-5.2 走的是另一条路：开放权重（open-weight）、即插即用、价格压到六分之一，谁想验证都能上手试。这种节奏靠的是调用量，是已经发生的事实。

两种节奏并不互斥，甚至经常在同一家公司身上同时出现。一个模型完全可以一边在榜单上宣布追平对手，一边在实际工作流里被另一个模型抢走开发者。Watermelon 的"追平"目前只是 Meta 内部的一个结论，能不能兑现要看训练完成后的技术报告和第三方复现；GLM-5.2 的"被采用"则已经写在 OpenRouter 的调用量里，不需要等任何人盖章。

对国内的开发者和企业来说，GLM-5.2 这一波值得记下来的地方，不在于它又拿到一个能和 GPT-5.5 并列的分数，而在于三件事凑到了一起：有分量的硅谷人物愿意在公开场合替它背书、OpenRouter 上它的调用量超过了 Anthropic、开发者把它部署下去不用费劲微调就能直接跑。智谱创始人唐杰在 X 上回复马斯克时甚至说，能在明年一季度前做出对标 Anthropic Fable 的模型。这种话同样要打折听，但它至少说明，中国开源阵营自己也开始用"交付"而不是"分数"来定义竞争。

放话式发布不会消失，下一个还在训练的模型很快又会被宣布追平谁。但接下来一年真正影响格局的，与其看谁在全员大会上讲了什么，不如看 OpenRouter 的排行榜每周在变什么。后者更诚实，它记录的是开发者在用什么，而不是厂商想让你听到的。

参考来源

Alexandr Wang says Meta’s coming AI has caught up with OpenAI’s flagship model — Business Insider 原始报道（AOL 转载，2026-07-03），援引两位内部全员大会知情人
Meta Watermelon vs GPT-5.5: what is known so far today — Cifrum.kz 对 Watermelon 主张的系统核查，指出其仍在训练、基准未披露、无独立验证
Analysis: A new, inexpensive Chinese AI model is catching up with Anthropic, OpenAI — Reuters 报道（AOL 转载，2026-07-02），记录 GLM-5.2 在硅谷的采用、背书与第三方平台数据
Techmeme 援引 Business Insider 的 Watermelon 报道
Meta 2026 年第一季度财报，资本支出指引上调至 1250 亿至 1450 亿美元
Meta 官方 Muse Spark 发布公告（2026-04-08）

以上来源用于观察发布口径和社区反馈。其中 Watermelon “追平 GPT-5.5” 是 Meta 内部主张，尚未经独立基准测试验证；GLM-5.2 的市场排名与采用数据来自第三方平台与媒体引述，不等同于权威评测。