Agent Harness 之所以突然变热,不是因为又发明了一个新名词,而是 AI Agent 已经从演示阶段进入生产阶段,真正的瓶颈开始转向上下文、权限、评估、日志和回滚。
当 Agent 不再只是回答一次问题,而是连续工作数小时甚至数天时,真正限制它的可能不是上下文长度,而是缺少一种像睡眠一样整理经验、压缩状态、恢复注意力的机制。
AI Agent 正在从“会说”走向“会做”,但真正决定它能不能进入生产环境的,不是模型参数,而是外部执行层、验证门禁、权限边界和反馈循环。
一篇 arXiv 论文把 AI 编程里最难说清的问题量化了:智能体(Agent)能跑通演示项目(demo),不代表能守住架构、对象关系映射(ORM)、数据库和框架约定。真正危险的不是语法错误,而是约束在多文件生成中逐渐衰减。
Codex Spark 把代码生成速度推到每秒 1200 tokens 后,AI coding 的风险不再是等太久,而是技术债生成得太快。真正重要的工程能力,正在从写代码转向规划、验证、约束和持续验收。