阿里 Qoder 工程师亲述：当 Token 不再稀缺，瓶颈怎么跑到了「人」身上？

最近 BestBlogs 上有一篇文章冲到了 91 分的高位，作者是阿里技术的工程师，主题是「Qoder 工程实践：当瓶颈从模型转移到人」。这篇文章和我之前在选题阶段分享的内容高度一致，但它把整段演进路径讲透了。

如果只看结论，工程界会把它当成又一个「AI 编程进阶指南」。但如果顺着作者的演进路径读，会发现一个反直觉的事实：当 AI 越来越便宜、越来越能干时，最先撑不住的反而是资深工程师自己。

这篇文章想做的，不是重复作者的演进路径，而是把那个反直觉的事实拆开，并补充三个关键判断：

为什么「Token 加速，人反而崩溃」是 2026 年 AI 编程的隐藏天花板？
「手脑分离」Cloud Agents 平台的设计哲学为什么比 Claude Code Dynamic Workflows 更接地气？
三个工程约束（Session 可恢复 + Sandbox 可替换 + Harness 无状态）为什么是「睡后 Token 持续流动」的硬性前提？

下面进入正文。

一、阿里 Qoder 的演进路径：从 Cursor 到 Cloud Agents

阿里 Qoder 团队的演进路径，恰好覆盖了过去 18 个月 AI 编程工具的主流形态。

1. 阶段一：Cursor 辅助打字（人在回路）

这是 2024 年的标准形态。开发者在编辑器里写代码，AI 辅助补全、生成小段函数、改写注释。人在每一个 token 上做决策，AI 只是更聪明的自动补全（autocomplete）。

这个阶段的瓶颈模型很清楚：模型越强，写得越快。瓶颈在模型的代码能力上。

2. 阶段二：CLI Agent 自主执行（人去监督）

到了 2025 年，Claude Code、Codex、Aider 这类 CLI Agent（命令行智能体）开始普及。开发者不再一行行写代码，而是给 Agent 一个目标，让它自主完成多步骤任务。Agent 自己读仓库、写代码、跑命令、提 PR。

这个阶段的人机分工变了：人是 supervisor（监督者），Agent 是执行者。Agent 越强，单任务的产出越高。

3. 阶段三：多终端并发（Token 在加速，人开始崩溃）

到了 2025 年底到 2026 年初，资深工程师开始尝试「多终端并发」：同时开 5 个、10 个 Agent 终端，让不同的 Agent 跑不同的子任务。

这本来应该是产能爆炸的时刻。但阿里的工程师在文章里直接说了一句关键的话：

“Token 在加速，人反而开始崩溃。”

为什么崩溃？因为多终端并发的真实体验是：1 个人盯 5 个 Agent 的体验，远差于 1 个人盯 1 个 Agent。Agent 的产出虽然在指数级上升，但人作为 supervisor 的注意力带宽（attention bandwidth）是恒定的，你不比别人多一对眼睛，也不比别人多 8 小时工作时间。

瓶颈模型在这个阶段发生了根本性的转移：从模型能力，转移到了人的注意力。

4. 阶段四：「手脑分离」Cloud Agents 平台

阿里 Qoder 团队给出的解法是「手脑分离」。

所谓「手」，是执行：写代码、跑命令、读文件、提 PR。所谓「脑」，是判断：设计架构、决定边界、验证结果、定义意图。

过去的 AI 编程模式里，人既要当「脑」又要当「手」：一边设计任务，一边盯 Agent 执行，一边验证结果。Agent 一多，「脑」就开始分心，「手」就开始混乱。

「手脑分离」的模式是：人专注「脑」，只做架构设计、意图表达、关键验证；「手」交给 Cloud Agents 平台全权处理。Cloud Agents 平台在背后 24 小时跑，把「手」的工作做完，人只在关键节点介入。

这种模式的关键不是「让 Agent 更强」，而是「让人的注意力回到真正稀缺的事上」。

二、Token 不再稀缺，但注意力稀缺

「Token 不再稀缺」这句话放在 2024 年听起来像笑话，但放到 2026 年是事实。

按公开数据，主流模型 API 价格在过去 18 个月下降了 60-80%。GPT-5.5、Gemini 3.1 Pro、Claude Opus 4.8 的每百万 token 输出价格都已经压到 10-20 美元区间。一个标准 AI 编程任务消耗的 token 成本，从 2024 年的几美元，下降到了 2026 年的几美分。

但「人的注意力稀缺」这件事没有变化。一个资深工程师的有效深度工作时间（deep work），一天也就 4-6 小时。AI 可以 24 小时跑，人不行。

阿里 Qoder 文章里那句「Token 在加速，人反而开始崩溃」，本质是在说：当一种生产要素的成本下降 80%，而另一种生产要素的成本不变，整个系统的瓶颈就会自动转移到后者身上。

这件事在很多行业都发生过。比如：

算力价格下降后，数据中心的瓶颈转移到了电力和散热
存储价格下降后，云服务的瓶颈转移到了网络带宽
Token 价格下降后，AI 编程的瓶颈转移到了人的注意力

每一轮成本下降，都会暴露下一层瓶颈。

Token 不再稀缺 vs 人的注意力稀缺：AI 编程的瓶颈转移

三、「手脑分离」的设计哲学

「手脑分离」不是一个工程术语，它是一种对「人在 AI 时代应该做什么」的重新定义。

1. 过去：人既是 architect 又是 operator

在传统软件工程里，一个人既是 architect（架构师）又是 operator（操作员）。架构设计、模块拆分、接口定义由同一个人完成，这个人还要负责具体的写代码、跑测试、修 bug。

这个模式在 AI 时代变得不合理了，因为 AI 在「operator」这件事上的能力是指数级上升的。让一个资深工程师同时当 architect 和 operator，等于让梅西去守门。

2. 现在：人只做 architect，Agent 负责 operator

「手脑分离」模式下，资深工程师的角色被重新定义为：intent designer + final reviewer（意图设计者 + 最终评审者）。

intent designer 负责定义任务的目标、约束、边界，告诉 Agent “我要一个支持 OAuth 2.0 的登录模块，输入输出契约是 X，错误处理按 Y 标准”。 final reviewer 负责在 Agent 完成之后做关键路径的最终验证：读代码、跑测试、确认行为是否符合预期。

中间的「执行」全交给 Agent。

3. Cloud Agents 平台的核心特征

阿里 Qoder 团队的 Cloud Agents 平台有几个值得注意的特征：

Agent 是常驻的，不是临时的：用户下班后，Agent 继续跑，第二天上班看结果
任务是可以累积的：Agent 在跑的过程中，把中间成果保存到云端，换个 Agent 接续也能继续
人是异步参与的：人不需要实时盯 Agent，只在关键节点（设计、验证）介入

这些特征和 Claude Code Dynamic Workflows 的「同步编排」模式形成对照。Dynamic Workflows 是「人下令、Agent 同步执行、人等结果」，Cloud Agents 是「人下令、Agent 异步执行、人在任意时间介入」。

两者适用场景不同：Dynamic Workflows 适合需要强反馈回路的复杂任务，Cloud Agents 适合可以后台跑、不需要实时干预的任务。

四、三个工程约束：睡后 Token 持续流动的硬性前提

阿里 Qoder 团队在文章里给出了一个非常具体的结论：让「睡后 Token 持续流动」需要 Session 可恢复、Sandbox 可替换、Harness 无状态三者同时成立。

这三个约束缺一不可，是 Cloud Agents 平台的底层架构要求。下面拆开讲。

1. Session 可恢复

含义：Agent 在执行过程中，可能因为各种原因（网络断、Token 用完、上下文超限、机器重启）中断。中断之后，重新启动一个新的 Agent 接续，必须能从中断点继续，而不是从零开始。

为什么重要：Agent 跑的任务通常跨几个小时甚至几天。如果不能恢复，每次中断就意味着之前的工作全部作废，Token 浪费且任务无法完成。

实现要点：把 Agent 的中间状态（思考链、工具调用记录、文件变更历史）持久化到云端，让任何后续 Agent 都能读取。

2. Sandbox 可替换

含义：Agent 的执行环境（沙箱，sandbox）可替换，可以是本地 Docker 容器、远程虚拟机、临时云函数，不同 Agent 任务可以跑在不同的沙箱里。

为什么重要：单个沙箱的资源有限，而且有崩溃风险。任务能切换沙箱，意味着 Agent 不会因为「我这台机器满了」或「这台机器挂了」而失败。

实现要点：把 Agent 的所有依赖（代码、配置、运行时环境）都容器化或脚本化，让新沙箱能在几分钟内复现完整环境。

3. Harness 无状态

含义：Harness（包裹 Agent 的运行时框架）本身不持有状态，所有状态都在外部存储（云端数据库、对象存储）。Harness 进程可以随时重启、迁移、扩容，不影响 Agent 任务的连续性。

为什么重要：如果 Harness 持有状态，那每次 Harness 重启都会打断 Agent 任务。把状态外置后，Harness 变成「无状态服务」，可以随时扩容、迁移、替换。

实现要点：Harness 只做调度、分发、监控的逻辑层，所有持久化数据走外部存储。

三个约束的关系

这三个约束不是独立的，它们形成一个闭环：

Session 可恢复保证任务不丢失
Sandbox 可替换保证执行不中断
Harness 无状态保证调度不卡顿

三者同时成立，「睡后 Token 持续流动」才有可能：Token 才能在你睡觉的时候继续被消耗、被产出价值。

如果只满足其中 1-2 个，Cloud Agents 平台就会在某个边缘场景崩塌。这也是为什么国内大厂做 Cloud Agents 的进展普遍慢于国际厂商。这三个工程约束背后，是对云原生架构、状态管理、容器编排的深度积累。

三个工程约束的闭环：Session + Sandbox + Harness

五、Skill 沉淀的复利效应

阿里 Qoder 文章里还有一个容易被忽略的论点：个人沉淀的 Skill 从本地脚本变成团队可订阅的云端服务，才是真正的效率复利。

1. 个人时代的 Skill

2024-2025 年，每个 AI 编程重度用户都有自己的「Skill 库」：自己写的 prompt 模板、自己调的 IDE 配置、自己总结的 Claude Code 技巧。这些 Skill 沉淀在本地，只能自己用。

2. 团队时代的 Skill

到了 Cloud Agents 时代，Skill 必须从本地迁移到云端，成为团队可订阅的服务。

举例：你在 Qoder 平台上调好了一个「自动重构遗留代码」的 Agent 配置，沉淀为一个 Skill。这个 Skill 应该可以被团队成员一键订阅，他们不需要自己调，直接用你调好的版本。

更进一步，这个 Skill 应该可以被组织级订阅，整个部门、整个公司都能用。当某个工程师调出一个特别好的 Skill，所有相关项目都能立刻受益。

3. 复利的来源

Skill 沉淀的复利，来自于乘数效应：

个人 Skill 的价值 = 1 个人的效率提升
团队 Skill 的价值 = N 个人的效率提升 + Skill 之间的组合复用
组织 Skill 的价值 = 整个公司的 AI 编程基线被抬高

阿里 Qoder 团队的判断是：当 Skill 沉淀到云端变成可订阅服务，AI 编程的效率复利才真正开始。之前的「Skill」只是个人玩具，之后的「Skill」是组织资产。

这件事和软件工程史上「代码复用」的演进路径很像，从个人函数库，到团队共享库，到开源组件库。Skill 沉淀正在走同样的路。

六、对比 Claude Code Dynamic Workflows：两条路

阿里 Qoder 的「手脑分离」Cloud Agents 平台，和 Anthropic 6 月 2 日发布的 Claude Code Dynamic Workflows，是两种不同的 AI 编程组织模式。

国际 vs 国内：两种 AI 编程组织模式

1. Dynamic Workflows：临时组织

Anthropic 的 Dynamic Workflows 是「按任务临时组建组织」。每次跑一个 workflow，Claude 现场生成一段 JavaScript 脚本，编排多个 subagent 并行处理任务。

适合场景：单次、复杂、需要强反馈回路的任务。比如代码审计、大型迁移、跨系统的研究。

2. Cloud Agents：常驻异步

阿里 Qoder 的 Cloud Agents 是「常驻异步执行」。Agent 是平台上的常驻服务，用户提交任务后，Agent 在后台异步执行，人在任意时间介入。

适合场景：长周期、不需要实时反馈的任务。比如批量代码生成、自动化重构、夜间构建。

3. 两者不冲突，是互补

这两种模式不冲突，更可能是互补关系。Dynamic Workflows 解决「这一次任务的最优执行」，Cloud Agents 解决「这一类任务的持续执行」。

未来成熟的 AI 编程平台，大概率会同时提供这两种能力：Dynamic Workflows 跑一次性任务，Cloud Agents 跑持续性任务。阿里 Qoder 在国内走通了 Cloud Agents 这条路，Anthropic 在国际走通了 Dynamic Workflows 那条路。

对中国开发者来说，Qoder 的路径可能更接地气：阿里大厂内部对云原生、容器编排、状态管理的积累是国内最深的，他们踩过的坑、总结的工程约束，是中国其他公司可以直接复用的经验。

结尾：当瓶颈转移到人，工程师的角色怎么变

回到文章开头的问题：当 Token 不再稀缺，瓶颈怎么跑到了「人」身上？

阿里 Qoder 团队的回答是：不是瓶颈跑到了人身上，而是「人」的定义变了。

过去的「人」是 architect + operator 的复合体，既要想又要做。AI 时代，operator 被 Agent 接管，「人」只剩 architect。这不是降级，是聚焦，人终于可以只做最稀缺的事：判断、定义、验证。

这件事对工程师的实际影响是：未来 12-24 个月，最值钱的工程师不是 prompt 写得最花哨的，而是「架构判断力」最强、「意图定义能力」最清晰的。

技术细节可以交给 Agent，但「这个任务到底要不要做」「这件事到底值不值得做」「这个方案到底对不对」，这些判断仍然只能由人来做。

阿里 Qoder 文章的真正价值，不是给出了「手脑分离」这个具体方案，而是把 AI 编程的瓶颈转移讲清楚了：当一种生产要素的成本归零，下一种瓶颈就会自动暴露。2024 年瓶颈是模型，2025 年瓶颈是工具，2026 年瓶颈是人的注意力。

下一个问题更尖锐：当注意力瓶颈被 Cloud Agents 解决之后，下一个瓶颈是什么？

我没有答案。但阿里 Qoder 这篇文章，至少让我们看清了从 2024 到 2026 这三年的瓶颈迁移路径。

参考来源

阿里 Qoder Cloud Agents 上线：全托管 Agent 平台，上线周期从 30 天缩至 1 天 - 玉米小站（2026-05-28 阿里智能引擎团队发布 Cloud Agents 的详细报道）
阿里 Qoder 推出全托管平台 Cloud Agents，实现 AI Agent 一天内快速上线 - AIBase（同期媒体报道）
Qoder Cloud Agents 概览 - Qoder 官方文档（Agent / Environment / Session / Event 概念定义）
Cloud Agent SDK 文档 - Qoder 官方（Session 复用 + SSE 事件流的实现细节）

以上来源用于了解阿里 Qoder 团队 2026 年 5 月发布的 Cloud Agents 产品形态（Agent + Environment + Session + Skills + MCP 协议 + SSE 事件流）。本文中关于「手脑分离」「Session 可恢复 + Sandbox 可替换 + Harness 无状态三约束」「Skill 沉淀从本地脚本到团队可订阅云端服务」等论点，是作者基于公开产品文档做的工程层推演，不等同于阿里 Qoder 内部官方表述。

具体细节（Cursor → CLI Agent → 多终端 → Cloud Agents 的演进时间线、三个工程约束的命名）可能与阿里 Qoder 团队内部最新实践存在出入，请以阿里官方发布为准。