7 月的头几天,硅谷同时传出两条方向几乎相反的消息。
一条来自 Meta。它的超级智能负责人 Alexandr Wang 在内部全员大会(town hall)上告诉员工,公司正在训练的新模型 Watermelon 已经追平 OpenAI 的 GPT-5.5,依据是他引用的"业内密切关注的 AI 基准测试(benchmark)"。这条消息被 Business Insider 在 7 月 3 日报道后,很快登上科技新闻聚合站 Techmeme。
另一条来自 Reuters 几乎同一时段的报道。北京初创公司 Z.ai(智谱)上个月发布的 GLM-5.2,在硅谷开发者社区里被追捧成"mini DeepSeek moment(迷你 DeepSeek 时刻)"。它在模型路由平台 OpenRouter 上的调用量超过了 Anthropic 的模型,在 Artificial Analysis 的 LLM 智能排行榜上排到第五,在 Code Arena 的前端编码榜单上位列第二,而成本大约只有美国闭源前沿模型(frontier model)的六分之一。
把这两条新闻并排放在一起读,会比单看任何一条都更说明问题:一家硅谷巨头正在用"还在训练的模型"对外喊话,而它的同行们已经把一个中国开源模型塞进了自己的日常工作流。
Watermelon 是什么,以及它还不是什么
按 Business Insider 援引两位知情人的描述,Watermelon 是 Meta 超级智能实验室的下一代模型,接在前代 Avocado 之后。Avocado 是 4 月发布的 Muse Spark 的内部代号,那次发布被官方称为 Meta 超级智能实验室的首战。Wang 在全员大会上说,Watermelon 用的算力是 Avocado 的"一个数量级",按通常理解大约是十倍。
但除了这句"追平 GPT-5.5",几乎什么都还没有。
Watermelon 仍在训练,没有公开发布。Wang 没有点名引用的是哪一套基准,也没有给出分数。Meta 既没有放出技术报告,也没有提供模型给第三方测试,公司面对 Business Insider 的置评请求选择了拒绝。换种说法,这是一条只有结论、没有方法、也没有可复现路径的声明。
这也不全是 Meta 一家的问题。同一时间 OpenAI 的 GPT-5.6 系列,6 月底以有限预览的形式给到少数合作伙伴,公开发布被推迟,据称与美国政府的安全要求有关。前沿模型的发布节奏,正在从"发布即评测"滑向"预告即营销"。Watermelon 只是把这种滑向推到了一个更明显的极端:连训练都没结束,对标就已经定好了。
Wang 在 X 上也做了公开呼应。他说 Muse Spark 的更新很快到来,编码和智能体(agentic)能力会有大幅提升;被用户追问 Meta 什么时候能有对标 Anthropic Claude Opus 的编码模型时,他回了一句 “pretty soon”。这种话术本身没什么错,但它和"追平 GPT-5.5"的内部说法叠在一起,给到外界的更像是一组营销信号,而不是一份技术交付。
同一周,硅谷在用什么
Reuters 那篇报道,比起 GLM-5.2 的分数,更值得看的是谁在替它背书。
特朗普政府前 AI 沙皇 David Sacks 在 All-In 播客里说,GLM-5.2 比 Anthropic 的 Opus 4.8 差一点点,但和 OpenAI 的 GPT-5.5 在同一档。Snowflake 的 CEO Sridhar Ramaswamy、知名投资人 Marc Andreessen 都公开称赞过它。有个背景得提一下:Sacks 说这番话的时机,正好是华盛顿解除对 Anthropic 的 Fable 和 Mythos 模型限制的前一周。换句话说,美国自研前沿模型在那段时间处于被自家政府卡住的状态,GPT-5.6 又没能大面积放开,这给了 GLM-5.2 一个非常具体的窗口。
开发者层面的数据更直接。GLM-5.2 在 OpenRouter 上的调用量超过了 Anthropic。Code Arena 前端编码榜第二,Artificial Analysis 综合榜第五,成本大约是同档闭源模型的六分之一。前 Hugging Face 亚太负责人王铁震的那段话被 Reuters 引用得最多:GLM-5.2 带来的真正变化,是开源模型变成了即插即用(plug-and-play)的产品,部署下去不用复杂微调(fine-tuning)就能直接跑,“这极大降低了开源采用的门槛”。
放到 Watermelon 的背景下看,这个对比有点扎眼:一边是还在训练、没有分数、没有模型的声明,一边是已经上线、被硅谷精英背书、价格还便宜六分之一的现货。两件事虽然发生在同一个月,讨论的其实不是同一件事。
放话和采用,正在变成两套评价体系
过去几年讨论"谁领先",默认的标尺是 benchmark 分数。谁的 SWE-bench Pro 高、谁的 MMLU 高,谁就领先。这套标尺有两个隐含假设:分数可以被独立复现,以及分数会转化为采用。
Watermelon 事件同时踩了这两个假设。当一家公司可以在模型还在训练的时候就宣布"追平",而且不给出任何可复现的依据,benchmark 作为公共标尺的公信力就被稀释了一点。它没有失效,但它开始需要和"是谁说的、依据是什么、能不能验证"这些上下文一起被阅读。
左:基准分数(声明);右:采用量(事实)。
而一个模型到底有没有被产业里真正用起来,看的是采用,不是榜单。GLM-5.2 在 OpenRouter 上的调用量比任何榜单都硬,因为它代表开发者在拿它干活。智库 RAND 今年早些时候基于 135 个国家的流量数据做过统计,自 DeepSeek R1 在去年 1 月发布之后两个月,中国大语言模型(LLM)的全球市场份额从 3% 跳到了 13%。这个数字后来有没有继续往上走,需要更长时间的跟踪,但方向比较清楚:采用正在往中国开源模型这一侧偏,而且在发展中国家和与北京经贸关系密切的地区更明显。
这不代表中国模型没有障碍。Reuters 同样提到,受监管行业里的美国企业,尤其是银行业和网络安全,对把中国模型塞进自己的 AI 技术栈仍有明显顾虑,企业系统的迁移周期通常要几个月。Counterpoint Research 的分析师 Wei Sun 指出,欧盟和美国的一些客户、合作伙伴和受监管行业,不管技术表现或价格如何,都可能不愿意接受中国模型。这部分现实决定了 GLM-5.2 的渗透是局部的、部分路由式的(partial routing),不会是一夜替换。Hello China Tech 的创始人 Poe Zhao 那句判断比较中肯:开发者真正在意的不是模型来自哪里,而是它好不好用、贵不贵、能不能稳定部署和访问。
关于那个流传更广的说法
社交媒体上还流传着一个更具戏剧性的版本:Alexandr Wang 本人把 GLM-5.2、Kimi 2.7 这些中国模型设成了自己的默认模型。这个说法目前主要见于一两条科技类的二手社媒帖,Business Insider 和 Reuters 的原始报道里都没有佐证。在出现更可信的来源之前,把它当成一个传播中的说法比较稳妥,先别当成已确认的事实。
不过就算没有这条传闻,事情本身也已经够说明问题了。Wang 的内部喊话和 GLM-5.2 在硅谷被采用,是同一周里实实在在发生的两件事。一边是 Meta 把年度资本支出再度上调到 1250 亿到 1450 亿美元押注自研,另一边是硅谷的精英和开发者已经把一个中国开源模型用进了日常。这种对比摆在那里,比任何个人的"双标"八卦都更值得想一想。
Watermelon 和 GLM-5.2,背后是两种做 AI 的节奏
把这两个名字放在一起,不是为了凑一个"中美对决"的叙事。它们更像是 2026 年中 AI 行业两种节奏的代表。
Watermelon 走的是重资本、闭源、期货化的路子:砸天价算力,先把对标喊出去,再慢慢补上模型本身。这种节奏靠的是声明和信任,外部只能等它交付。
左路:声明·信任(期货);右路:采用·事实(现货)。
GLM-5.2 走的是另一条路:开放权重(open-weight)、即插即用、价格压到六分之一,谁想验证都能上手试。这种节奏靠的是调用量,是已经发生的事实。
两种节奏并不互斥,甚至经常在同一家公司身上同时出现。一个模型完全可以一边在榜单上宣布追平对手,一边在实际工作流里被另一个模型抢走开发者。Watermelon 的"追平"目前只是 Meta 内部的一个结论,能不能兑现要看训练完成后的技术报告和第三方复现;GLM-5.2 的"被采用"则已经写在 OpenRouter 的调用量里,不需要等任何人盖章。
对国内的开发者和企业来说,GLM-5.2 这一波值得记下来的地方,不在于它又拿到一个能和 GPT-5.5 并列的分数,而在于三件事凑到了一起:有分量的硅谷人物愿意在公开场合替它背书、OpenRouter 上它的调用量超过了 Anthropic、开发者把它部署下去不用费劲微调就能直接跑。智谱创始人唐杰在 X 上回复马斯克时甚至说,能在明年一季度前做出对标 Anthropic Fable 的模型。这种话同样要打折听,但它至少说明,中国开源阵营自己也开始用"交付"而不是"分数"来定义竞争。
放话式发布不会消失,下一个还在训练的模型很快又会被宣布追平谁。但接下来一年真正影响格局的,与其看谁在全员大会上讲了什么,不如看 OpenRouter 的排行榜每周在变什么。后者更诚实,它记录的是开发者在用什么,而不是厂商想让你听到的。
参考来源
- Alexandr Wang says Meta’s coming AI has caught up with OpenAI’s flagship model — Business Insider 原始报道(AOL 转载,2026-07-03),援引两位内部全员大会知情人
- Meta Watermelon vs GPT-5.5: what is known so far today — Cifrum.kz 对 Watermelon 主张的系统核查,指出其仍在训练、基准未披露、无独立验证
- Analysis: A new, inexpensive Chinese AI model is catching up with Anthropic, OpenAI — Reuters 报道(AOL 转载,2026-07-02),记录 GLM-5.2 在硅谷的采用、背书与第三方平台数据
- Techmeme 援引 Business Insider 的 Watermelon 报道
- Meta 2026 年第一季度财报,资本支出指引上调至 1250 亿至 1450 亿美元
- Meta 官方 Muse Spark 发布公告(2026-04-08)
以上来源用于观察发布口径和社区反馈。其中 Watermelon “追平 GPT-5.5” 是 Meta 内部主张,尚未经独立基准测试验证;GLM-5.2 的市场排名与采用数据来自第三方平台与媒体引述,不等同于权威评测。