微软砍掉 Claude Code，原因是工程师太喜欢用了

微软最近做了一件让很多人感到意外的事：宣布将在 6 月 30 日前取消旗下 Experiences & Devices 部门大多数工程师的 Claude Code 许可。

这个部门负责 Windows、Microsoft 365、Outlook、Teams 和 Surface。不是小团队，是微软产品线的核心。

更让人意外的是时间线：Claude Code 的内部试点是 2025 年 12 月才启动的。从推广到砍掉，只用了六个月。

不是工具不好，是因为太好

先说数字。微软内部工程师对 Claude Code 的满意度达到 91%，这个数字放在任何企业软件评估里都算高分。

但正因为满意，工程师才会一直用，而一直用的结果是 Token 消耗快速叠加。按现有报道，企业用户每名工程师的月均 API 成本在 $500 到 $2000 之间——这取决于他们做什么样的任务、跑多少 Agent 循环。

对于一个中型工程团队来说，100 人按月均 $1000 算，一年就是 120 万美元，只是一个部门的编程工具费用。

微软并没有公布具体数字，但有一个间接数据：整个公司的 AI 专项预算在前四个月就基本告急。按照报道，这笔预算相当大，但 AI 工具在 Agent 模式下的消耗速度远超预期。

Uber 的情况更直接。Uber CTO 在 4 月接受 The Information 采访时说，公司 2026 年原定的 AI 编程预算是 34 亿美元，但前四个月就烧完了。这不是某个激进的实验性团队，而是整个工程组织的日常使用数据。

Token 计费和企业预算之间的根本矛盾

问题的结构比"费用高"要复杂一点。

传统企业软件用的是席位授权逻辑：每个工程师每年付一笔固定费用，不管他用多少次、跑多少功能，价格不变。这和企业的预算模型高度兼容——财务在年初可以精确预测全年支出。

AI 编程工具，特别是进入 Agent 模式之后，走的是完全不同的路。每一次推理调用消耗 Token，Token 消耗对应实际计算成本，计算成本随使用量线性（甚至超线性）增长。你让 Claude Code 帮你做一次全代码库的安全扫描，调用量可能是普通对话的几十倍。

这两种模型之间没有好的调和方式。企业采购方想要的是"固定成本、可预测"，工具厂商提供的是"用量定价、按使用收费"。当工具真的好用、工程师真的在高强度使用时，账单就会失控。

微软把 Claude Code 换成 GitHub Copilot CLI，背后有一个很现实的逻辑：Copilot 是微软自己的产品，内部成本结构不一样，不需要对外结算 Token 费用。

Token 按量计费 vs 固定席位授权对比

这不是微软一家的问题

Uber 的 34 亿美元预算在 4 月底已经基本耗尽，说明这个问题和 Anthropic 有没有配合好没什么关系。换任何一家以 Token 计费的 AI 编程工具，同样的情况照样会发生。

今年早些时候，Anthropic 对 OpenClaw（一个允许开发者用 Claude 订阅调用各种工具的第三方客户端）实施了限制，要求第三方工具的调用量单独计费，不再包含在原有订阅里。当时引发了不小的争议，有人批评 Anthropic 在"堵外部工具"，也有人认为这是平台化的必然动作。

但现在回看，这个决定和微软的取消事件指向同一个方向：Token 消耗到了必须认真管理的量级，平台和企业都在重新审视"无上限使用"到底可不可持续。

Databricks 今年做了一份企业 AI 落地调研，受访企业把"ROI 验证困难"排在技术挑战之前，列为首要问题。工具好不好用是一回事，花出去的钱有没有回来是另一回事，后者在很多公司里根本就没有人在系统地量化。

CTO 的账该怎么算

微软这件事对做企业技术决策的人有个直接警示：对话模式和 Agent 模式是两种完全不同量级的成本。让工程师用 Claude Code 问几个问题，和让它跑一次全库依赖升级或 PR 扫描，Token 消耗可以差出几十倍。很多公司在推广 AI 编程工具时没有把这两种模式拆开来估算，等到账单出来才发现数字对不上。

满意度那张牌也要小心。91% 满意度没有救下微软对 Claude Code 的许可，因为工程师喜欢用一个工具，和这个工具的产出值多少钱，真的是两码事。前者你问一个调查就能拿到，后者需要认真追踪：减少了多少 code review 来回、少了多少 bug 进生产、加速了哪些功能交付。这些数字不主动量化，财务那关很难通过。

另一个现实问题是预算审批流程本身。按量计费对工具厂商来说很自然，但对企业财务来说，年初无法预测年末账单是很难接受的事。GitHub Copilot 走的固定席位路线在这一点上有天然优势——不是功能比对手强，而是数字能写进预算表里。这也是为什么不少公司即便知道某个 AI 工具效果更好，最后还是选了可以固定报价的那个。

企业 AI 预算消耗速度可视化：Uber 全年 34 亿四个月耗尽

Anthropic 面对的是什么局面

微软的这次取消，对 Anthropic 的提示不在于 Claude Code 功能够不够好，而在于 Token 计费本身在企业大规模采购场景里的摩擦有多大。Anthropic 今年推出了企业套餐，也在不同定价层级上做了调整，但在"让开发者用得起"和"从企业端收到足够收入"之间，还没有一个让两边都舒服的方案。

GitHub Copilot 和 Cursor 在往固定席位方向走，大模型厂商自己也在加速 IDE 集成的深度。Claude Code 在开发者社区里建立的口碑是真实的，但开发者的口碑和企业 IT 的采购决策之间，运作逻辑差距很大。前者看体验，后者看预算表能不能填。

微软和 Uber 不是例外，只是最先把账单摊开来讲的两家。随着 AI 工具进入 Agent 模式的使用量继续增长，同样的矛盾会在更多公司里出现，只是时间早晚而已。