微软最近做了一件让很多人感到意外的事:宣布将在 6 月 30 日前取消旗下 Experiences & Devices 部门大多数工程师的 Claude Code 许可。
这个部门负责 Windows、Microsoft 365、Outlook、Teams 和 Surface。不是小团队,是微软产品线的核心。
更让人意外的是时间线:Claude Code 的内部试点是 2025 年 12 月才启动的。从推广到砍掉,只用了六个月。
不是工具不好,是因为太好
先说数字。微软内部工程师对 Claude Code 的满意度达到 91%,这个数字放在任何企业软件评估里都算高分。
但正因为满意,工程师才会一直用,而一直用的结果是 Token 消耗快速叠加。按现有报道,企业用户每名工程师的月均 API 成本在 $500 到 $2000 之间——这取决于他们做什么样的任务、跑多少 Agent 循环。
对于一个中型工程团队来说,100 人按月均 $1000 算,一年就是 120 万美元,只是一个部门的编程工具费用。
微软并没有公布具体数字,但有一个间接数据:整个公司的 AI 专项预算在前四个月就基本告急。按照报道,这笔预算相当大,但 AI 工具在 Agent 模式下的消耗速度远超预期。
Uber 的情况更直接。Uber CTO 在 4 月接受 The Information 采访时说,公司 2026 年原定的 AI 编程预算是 34 亿美元,但前四个月就烧完了。这不是某个激进的实验性团队,而是整个工程组织的日常使用数据。
Token 计费和企业预算之间的根本矛盾
问题的结构比"费用高"要复杂一点。
传统企业软件用的是席位授权逻辑:每个工程师每年付一笔固定费用,不管他用多少次、跑多少功能,价格不变。这和企业的预算模型高度兼容——财务在年初可以精确预测全年支出。
AI 编程工具,特别是进入 Agent 模式之后,走的是完全不同的路。每一次推理调用消耗 Token,Token 消耗对应实际计算成本,计算成本随使用量线性(甚至超线性)增长。你让 Claude Code 帮你做一次全代码库的安全扫描,调用量可能是普通对话的几十倍。
这两种模型之间没有好的调和方式。企业采购方想要的是"固定成本、可预测",工具厂商提供的是"用量定价、按使用收费"。当工具真的好用、工程师真的在高强度使用时,账单就会失控。
微软把 Claude Code 换成 GitHub Copilot CLI,背后有一个很现实的逻辑:Copilot 是微软自己的产品,内部成本结构不一样,不需要对外结算 Token 费用。

这不是微软一家的问题
Uber 的 34 亿美元预算在 4 月底已经基本耗尽,说明这个问题和 Anthropic 有没有配合好没什么关系。换任何一家以 Token 计费的 AI 编程工具,同样的情况照样会发生。
今年早些时候,Anthropic 对 OpenClaw(一个允许开发者用 Claude 订阅调用各种工具的第三方客户端)实施了限制,要求第三方工具的调用量单独计费,不再包含在原有订阅里。当时引发了不小的争议,有人批评 Anthropic 在"堵外部工具",也有人认为这是平台化的必然动作。
但现在回看,这个决定和微软的取消事件指向同一个方向:Token 消耗到了必须认真管理的量级,平台和企业都在重新审视"无上限使用"到底可不可持续。
Databricks 今年做了一份企业 AI 落地调研,受访企业把"ROI 验证困难"排在技术挑战之前,列为首要问题。工具好不好用是一回事,花出去的钱有没有回来是另一回事,后者在很多公司里根本就没有人在系统地量化。
CTO 的账该怎么算
微软这件事对做企业技术决策的人有个直接警示:对话模式和 Agent 模式是两种完全不同量级的成本。让工程师用 Claude Code 问几个问题,和让它跑一次全库依赖升级或 PR 扫描,Token 消耗可以差出几十倍。很多公司在推广 AI 编程工具时没有把这两种模式拆开来估算,等到账单出来才发现数字对不上。
满意度那张牌也要小心。91% 满意度没有救下微软对 Claude Code 的许可,因为工程师喜欢用一个工具,和这个工具的产出值多少钱,真的是两码事。前者你问一个调查就能拿到,后者需要认真追踪:减少了多少 code review 来回、少了多少 bug 进生产、加速了哪些功能交付。这些数字不主动量化,财务那关很难通过。
另一个现实问题是预算审批流程本身。按量计费对工具厂商来说很自然,但对企业财务来说,年初无法预测年末账单是很难接受的事。GitHub Copilot 走的固定席位路线在这一点上有天然优势——不是功能比对手强,而是数字能写进预算表里。这也是为什么不少公司即便知道某个 AI 工具效果更好,最后还是选了可以固定报价的那个。

Anthropic 面对的是什么局面
微软的这次取消,对 Anthropic 的提示不在于 Claude Code 功能够不够好,而在于 Token 计费本身在企业大规模采购场景里的摩擦有多大。Anthropic 今年推出了企业套餐,也在不同定价层级上做了调整,但在"让开发者用得起"和"从企业端收到足够收入"之间,还没有一个让两边都舒服的方案。
GitHub Copilot 和 Cursor 在往固定席位方向走,大模型厂商自己也在加速 IDE 集成的深度。Claude Code 在开发者社区里建立的口碑是真实的,但开发者的口碑和企业 IT 的采购决策之间,运作逻辑差距很大。前者看体验,后者看预算表能不能填。
微软和 Uber 不是例外,只是最先把账单摊开来讲的两家。随着 AI 工具进入 Agent 模式的使用量继续增长,同样的矛盾会在更多公司里出现,只是时间早晚而已。