Featured image of post Harness Engineering 为什么成了 2026 年最热门的技术词

Harness Engineering 为什么成了 2026 年最热门的技术词

OpenAI 2 月发论文,Anthropic 4-5 月连发 3 篇,AI 圈突然集体转向同一个词。本文从行业动作看趋势,解释为什么 Harness 取代 Prompt 成为新焦点。

2026 年开始,AI 工程圈出现了一个有意思的现象。

年初大家还在聊怎么写更好的 Prompt,年中这个词就突然变得很少有人提了。取而代之的是一个新词 Harness。这个词不是被某个小团队发明出来再扩散的,是被 OpenAI 和 Anthropic 这两家头部公司几乎同时推到了台前:

  • 2 月 11 日:OpenAI 发布博客《Harness engineering: leveraging Codex in an agent-first world》
  • 4 月 17 日:Augment Code 发布《Harness Engineering for AI Coding Agents》
  • 4 月 20 日:Anthropic 三周内连发三篇工程论文,主题是 effective harnesses、harness design、managed agents
  • 5 月 16 日:Medium 上 Mario Tort 整理《AI Agent Best Practices: Production-Ready Harness Engineering (2026 Guide)》

四个月里,AI 头部厂商和独立工程师围绕同一概念密集发声。这在以前是很少见的,通常一个新概念要扩散到这个密度,需要一两年。

这个词突然爆火背后是一个判断:Prompt Engineering 时代结束了,Harness Engineering 时代开始了。

我之前写过一篇《AI Agent 真正的分水岭:不是模型,而是可验证的 Harness》,偏技术细节。今天想从行业动作的角度,聊聊 为什么是 2026 年、为什么是 Harness 这个词、为什么 OpenAI 和 Anthropic 几乎同时押注它

一、从行业动作里看到的趋势

如果只看"厂商在写新论文",你会觉得这就是正常的科研节奏。

但如果把 2025 年底到 2026 年中的几件大事放在一起看,会发现这条线指的方向是一致的。

时间 事件 含义
2025 Q4 Claude Code 工作流被多篇博客复盘 大家开始意识到"光会写 Prompt 不够"
2026 年 1 月 Claude Code 1 周年,被认为"解决了 AI 编程问题" 但紧接着开始出现反弹——“贵、不稳定、需要工程化”
2026 年 2 月 OpenAI 发布 Harness Engineering 论文 第一次把"围绕 Agent 的工程"这个概念正式命名
2026 年 3-4 月 Anthropic 集中发表三篇相关论文 等于从对手角度确认了这个方向的价值
2026 年 4 月 AHE 框架(Agentic Harness Engineering)发布 把 Harness 变成可量化、可自动优化的对象
2026 年 5 月 社区开始把 Harness 写入"必备技能" 招聘 JD 里开始出现"Harness Engineering experience"

这条线的发展速度,比"Prompt Engineering"被广泛接受要快得多。后者用了大约 2 年(2022 年底到 2024 年),前者只用了 4 个月。

为什么这么快?因为 Prompt Engineering 的痛点已经被所有人共同感受到了

二、为什么 Prompt Engineering 不够用了

2023 年和 2024 年,大家追捧 Prompt Engineering 的核心原因是:模型本身还不够强,需要靠精巧的提示来"挤"出更好的输出

那时候一个好的 Prompt 工程师,确实能比一般用户多出 30%-50% 的可用性。这是真实存在的红利。

但到 2025 年底,模型本身的能力快速跃迁:

  • Claude Opus 4.5/4.6 在 SWE-Bench 上超过 60%
  • GPT-5 系列在多步推理上接近人类水平
  • 开源模型(Qwen 3.5、Llama 4、Gemma 4)在垂直任务上已经能商用

模型能力上来之后,Prompt 的边际收益快速衰减

举个具体例子:以前你得花 30 分钟设计一个 chain-of-thought Prompt,才能让模型正确拆解一个 5 步任务。现在你直接说"把这件事拆成 5 步做",模型就能做对。

Prompt 的精雕细琢,变成了不必要的成本。

但这并不意味着"什么都不用做"。相反,问题转移了:

  • Prompt 不重要了,但 怎么让 Agent 跑完一个长任务不出错 变得重要
  • 单次对话不重要了,但 怎么管理 Agent 的状态、记忆、工具调用 变得重要
  • 文字指令不重要了,但 怎么让 Agent 在出错时自我恢复、在遇到歧义时主动问 变得重要

这些都不是 Prompt 能解决的问题。它们需要的是一套工程基础设施,也就是 Harness。

三、Harness 到底是什么

为了避免这个词变得过于抽象,先给一个具体定义。

按 OpenAI 在 2 月那篇博客里的说法:

A harness is the scaffold—the orchestration, context management, tool wiring, permission boundaries, and recovery loops—that sits between the model and the real world.

Prompt 时代 vs Harness 时代

翻译成中文:Harness 是 Agent 脚手架,包含编排、上下文管理、工具接入、权限边界、错误恢复这一整套让模型能稳定工作的工程层。

如果用软件工程的类比:

  • Prompt 像是函数调用。你给它输入,它给你输出
  • Harness 像是整个运行时。它管理内存、调度、IO、异常、资源

也就是说,Prompt 是 API 层,Harness 是操作系统层

一个完整的 Harness 通常包含这几层组件(这是我综合多份资料整理的,不是某个单一来源的定义):

Harness 七层组件架构

  1. 上下文工程(Context Engineering):决定什么时候读什么文件、保留哪些历史、用什么格式
  2. 工具注册表(Tool Registry):Agent 能调用哪些工具、怎么调用、参数怎么校验
  3. 权限系统(Permission System):哪些操作需要用户确认,哪些可以自动跑
  4. 状态机(State Machine):任务在"等待/执行/失败/完成"之间的转换逻辑
  5. 错误恢复(Recovery Loop):工具调用失败、模型输出异常时怎么办
  6. 可观测性(Observability):每一步做了什么、花了多少 token、为什么这么决定
  7. 子代理编排(Sub-agent Orchestration):什么时候分拆任务、怎么合并结果

把这几层组合起来,就是一个 Harness。Claude Code、Codex 这些产品,本质上都是 Harness 的具体实现

四、为什么是 2026 年

到这里其实还有个问题没回答:为什么 OpenAI 和 Anthropic 几乎同时押注 Harness 这个词?

我的判断是,三股力量在 2026 年初汇合了。

第一股:模型能力的同质化

GPT-5.5、Claude Opus 4.6、Gemini 3 Pro 在 SWE-Bench 这类硬指标上的差距,已经从 2023 年的 30%+ 缩小到 2026 年的 5% 以内。

当模型本身不再是差异点时,差异点就转移到了 Harness 上。

这就是为什么 OpenAI 和 Anthropic 都在大力宣传自己的 Harness 设计。他们卖的不只是模型,是"模型 + Harness 整体体验"。

第二股:企业级部署的爆发

2025 年开始,Agent 进入企业生产环境。但企业部署 Agent 很快发现:

  • 一次 token 失控能烧掉 $5000
  • 一个有歧义的指令能导致 Agent 删错文件
  • 一次工具调用失败能让 Agent 死循环

这些问题都出在 Harness 上,不在模型上。企业级 Agent 部署的需求,把 Harness Engineering 从"可选优化"逼成了"必备技能"

第三股:Agentic Harness Engineering 的可量化结果

AHE 框架(4 月发布)把 Harness 推到了一个新的高度。它能自动进化。

简单说,AHE 把 Harness 的各个组件(系统提示、工具描述、子代理配置、记忆)拆开,用可观测性追踪每个组件对最终效果的影响,然后用一个优化 Agent 自动改写"最弱的那一环"。

结果:在 Terminal-Bench 2 基准上,pass@1 从 69.7% 提升到 77.0%,超过手写的 Codex (71.9%)、自进化的 ACE 和 Training-Free GRPO

更值得注意的是,训练好的 Harness 不绑死模型。它可以迁移到 SWE-bench-verified 和其他 4 个 base model,依然有提升。这说明 Harness 学到的是"通用工程经验",不是针对某个 benchmark 的过拟合。

AHE 的存在让 Harness 变成了一个 可以被量化、被优化、被比较 的对象。这才是这个词被行业快速接受的关键。

五、开发者需要做什么

如果你在 2026 年还在用 2024 年的方式做 Agent 开发,可能会开始感觉到瓶颈。

这里给出三个具体的转向建议,先做第一个就够

1. 重新审视你的项目结构

好的 Harness 有一个共同点:项目本身是可被 Agent 理解的

具体做法:

  • README 要写"项目是什么、怎么跑、主要约束是什么"
  • CLAUDE.md / AGENTS.md 写"Agent 在这个项目里应该遵守的规则"
  • 关键目录有明确的"职责说明"
  • 测试、构建、部署的脚本要可被独立调用

Anthropic 自己在 Claude Code 项目里就是这么做的。一行 CLAUDE.md 比 1000 字的 system prompt 更有效,因为 Harness 会在正确的时机读它,而不是把所有内容塞进 context。

2. 关注"失败模式"而不是"成功模式"

Prompt Engineering 时代,大家花大量时间想"什么样的 prompt 能让模型成功"。

Harness Engineering 时代,更值得花时间的是"模型在哪些情况下会失败、失败后 Harness 怎么恢复"

比如:

  • 工具调用返回 500 怎么办?重试几次?降级到哪个工具?
  • 模型输出格式不对怎么办?直接报错还是尝试解析?
  • 长任务跑到一半超出 context 怎么办?压缩历史还是分拆子任务?

这些"如果…怎么办"的设计,比"怎么让 prompt 更精准"重要得多。

3. 把 Harness 看作可观测的对象

如果你的 Harness 没有日志、没有 metrics、没有 trace,那就不是一个 Harness,是一个黑盒。

最低限度,你至少要能回答这些问题:

  • 这次任务一共消耗了多少 token?分别在哪一步?
  • Agent 调用了哪些工具?每个工具的调用次数和成功率?
  • Agent 在哪一步卡住过?最后怎么解决的?
  • 如果用户报告"这次结果不对",你能从日志里复现 Agent 的决策路径吗?

AHE 之所以能把 Harness 优化到 77%,核心就是它把每个组件的贡献都量化了。你不需要做 AHE,但你至少要能看到自己 Harness 的运行情况

六、写在最后

回到开头那个判断。Prompt Engineering 时代是不是真的结束了,Harness Engineering 时代是不是真的开始了?

更准确的说法是:Prompt 仍然是 Harness 的一部分,但 Harness 的复杂度已经超过了 Prompt 本身

就像前端工程师今天还是会写 HTML/CSS,但工作的主要内容已经变成了框架、状态管理、性能优化、构建工具。HTML/CSS 是地基,但不是全部。

Harness 也是一样。它不是 Prompt 的"替代品",而是 AI 工程化的新一层

2026 年不是 Harness 一夜爆火的年份,而是 Harness 从"少数先知在尝试"变成"行业共识在形成"的年份。OpenAI 和 Anthropic 同时押注这个词,只是这个共识的注脚。

如果你在 2026 年刚开始用 Claude Code 或 Codex,建议把时间花在理解你用的工具的 Harness 设计、读完它的官方文档、研究它的失败模式,而不是反复调优 prompt。

这些,比写一个 200 字的 system prompt 重要得多。


素材来源

相关阅读

  • [[why-agent-harness-matters-2026]] — 为什么 2026 年大家突然都在谈 Agent Harness
  • [[AI Agent 真正的分水岭:不是模型,而是可验证的 Harness]] — 偏技术细节
  • [[Claude Code 工作流最佳实践]] — Claude Code Harness 的具体设计
  • [[claude-code-creator-workflow]] — Claude Code 创始人的工作流揭秘
  • [[AI Agent 的下一个封装单位,不是 App,而是 Skill Market]] — Harness 之上的 Skill 生态
RSS Feed 使用 Hugo 构建
主题 StackJimmy 设计