Anthropic 在 6 月 30 日发布了 Claude Sonnet 5。按官方说法,这是“最具 agentic 能力的 Sonnet 模型”,能规划任务、使用浏览器和终端等工具,并在不少场景里接近 Opus 4.8。它也已经进入 Claude Code、Claude Platform,并被 GitHub Copilot 等开发者入口快速接入。
如果只把它理解成“Claude 又变强了”,这篇文章就没什么好写。大模型每隔几周刷一次榜,读者早就麻了。
真正有意思的地方在价格和定位:Sonnet 5 的 API 发布价是每百万输入 token 2 美元、每百万输出 token 10 美元,这个优惠价持续到 2026 年 8 月 31 日;之后回到每百万输入 3 美元、每百万输出 15 美元。官方同时把 Opus 4.8 标在每百万输入 5 美元、每百万输出 25 美元。再加上 Sonnet 5 面向 coding(编程)、tool use(工具使用)和 everyday professional work(日常专业工作)的叙述,这不像是一次单纯的模型发布,更像是 Anthropic 在重新定价 Agent(智能体)的执行层。

为什么 Agent 特别怕贵?
聊天机器人时代,我们习惯按“一问一答”算成本。用户问一句,模型答一句,最多再接一轮追问。这个账虽然不便宜,但还算直观。
Agent 的账不是这么算的。
一个看起来简单的“帮我修这个 bug”,背后可能拆成十几个动作:读代码、查日志、定位相关文件、写一个复现测试、改代码、跑测试、失败后再读报错、继续修改、最后总结。每一步都可能消耗上下文,每一步都可能触发工具调用,每一步还可能让模型重新判断下一步怎么走。
所以 Agent 的成本不是“调用一次模型多少钱”,而是“完成一个任务要多少轮模型推理、多少次工具调用、多少次验证和回滚”。这也是为什么很多 AI 产品 Demo 很好看,上线却容易卡在经济账上:模型足够聪明,不代表产品跑得起。

这件事在编程场景里尤其明显。一个 coding agent(编程智能体)如果只负责生成一段代码,成本还好控制;一旦它开始像工程师一样工作,要读仓库、跑命令、修测试、做 review,token 消耗就会从“文本生成成本”变成“执行流程成本”。
Sonnet 5 的信号:不是顶级大脑,而是默认执行层
官方发布文里有一句话很关键:Sonnet 5 能以更低价格完成几个月前需要更大、更昂贵模型才能完成的 agentic 工作。
这句话的重点不在“Sonnet 5 追上 Opus 4.8”。我更愿意把它理解为:Anthropic 希望把高频执行任务从顶级模型层迁下来。
顶级模型当然仍然重要。复杂架构决策、困难推理、长周期规划、关键安全判断,仍然适合交给 Opus 或 Fable 这样的高能力模型。但真实产品里,绝大多数步骤并不都需要最贵模型。很多动作只是“足够聪明地继续往下做”:读一个文件,按规范改一段代码,根据报错重跑测试,检查输出是否符合约束。
过去的问题是,中间层模型一旦不够稳,Agent 就会在这些“看似普通”的步骤上掉链子。于是团队只能用更贵的模型兜底,成本跟着放大。Sonnet 5 的价值在这里:如果它能在中等成本下稳定完成大部分执行动作,那么 Agent 的默认架构就会变成“Sonnet 常驻执行,Opus/Fable 关键兜底”。

这和传统工程里的分层很像。你不会让首席架构师亲自处理每一次格式化、每一次测试重跑、每一次日志筛查。你需要一个可靠的执行团队,遇到关键判断再升级给更高层级的人。Sonnet 5 想扮演的,正是这个执行团队。
token 单价下降,不等于任务成本自动下降
这里也要泼一点冷水:Sonnet 5 不是简单意义上的“更便宜”。
官方脚注提到,Sonnet 5 使用更新 tokenizer(分词器),同样的输入可能映射成更多 token,范围大约是 1.0 到 1.35 倍,取决于内容类型。Anthropic 也解释说,阶段性优惠价格的设计,是为了让迁移到 Sonnet 5 的过渡大体保持成本中性。
这意味着团队不能只看报价表上的输入/输出价格。真正要看的,是单位任务成本:
- 一个任务平均跑多少轮?
- 每轮读入多少上下文?
- 失败重试率有没有下降?
- 自检和验证能不能减少人工返工?
- 更高 effort(推理投入档位)带来的质量提升,是否抵消了额外 token?
如果 Sonnet 5 让一个任务从 12 轮减少到 7 轮,即使单轮 token 变多,最终也可能更便宜。如果它让模型更愿意自检、少走弯路,真实收益也不一定体现在单次 API 价格里。反过来,如果团队盲目把所有任务都切到高 effort,把上下文塞满,还让 Agent 无限制探索,账单一样会爆。
所以 Sonnet 5 带来的不是“成本问题消失了”,而是让成本治理有了新的可操作空间。
对开发者来说,真正变化的是工作流设计
如果你正在做 AI 编程工具、内部自动化 Agent,或者企业知识工作流,Sonnet 5 最直接的影响不是“换个模型 ID”。
更现实的变化有三个。
第一,更多子任务可以交给模型自动跑。以前为了省钱,很多团队会限制 Agent 的自检次数,甚至让它只生成补丁、不主动跑验证。现在如果 Sonnet 层足够便宜、足够稳,产品就可以更大胆地让它多做一步:写测试、跑测试、读失败输出,再自己修一轮。
第二,模型路由会变成基本功。不是所有任务都上 Sonnet 5,也不是所有困难任务都死磕 Opus。比较合理的结构可能是:Sonnet 5 负责默认执行,低风险批处理交给更轻量模型,关键判断升级到 Opus 或 Fable,失败场景再走人工确认。模型不再是一个按钮,而是一套路由策略。
第三,长上下文会让团队更愿意保留过程信息,但也更需要节制。1M context(百万级上下文)听起来很爽,可上下文越长,成本、延迟和注意力管理问题越明显。真正成熟的 Agent 产品不会把所有东西一股脑塞进去,而会决定哪些信息进入上下文,哪些沉到文件、缓存或检索系统里。
这和 Fable 5 的区别在哪里?
前段时间大家讨论 Fable 5,更多是在说能力分层、风险路由和顶级模型边界。Fable 代表的是“最难的任务交给谁”,以及高风险、高价值场景如何配置最强模型。
Sonnet 5 讨论的是另一个问题:日常任务到底由谁来跑。
这两个问题都重要,但它们不是同一个问题。Fable 关心的是上限,Sonnet 5 关心的是规模化执行的底盘。一个决定 Agent 在最困难任务上能不能突破,另一个决定 Agent 在普通任务上能不能跑得足够多、足够久、足够便宜。
过去很多人把模型选择理解成排行榜问题:谁最强,就用谁。Agent 时代更像运维问题:哪些任务常态化执行,哪些任务需要升级,哪些任务必须验证,哪些任务可以失败重试。排行榜只能回答“模型能力”,回答不了“系统经济账”。
最后说两句
Claude Sonnet 5 的意义,不是让我们又多了一个可以兴奋三天的新模型名。它更像是在提醒开发者:AI Agent 的竞争已经进入成本结构阶段。
Agent 负责把任务拆开并持续执行,模型负责在每一步做判断,工具负责把判断变成真实动作,成本层则决定这些动作能不能被大量、频繁、稳定地运行。只讨论模型强不强,就会漏掉后半截:Agent 不是一次回答,而是一串可观察、可验证、可中断、可复盘的执行过程。
Sonnet 5 想解决的正是这串过程里最常见、最昂贵的部分:默认执行层。它不必在每个指标上压过 Opus,也不需要承担所有高风险判断。只要它能用更低成本完成大多数计划、读写、调用、检查和修正动作,整个 Agent 产品的部署方式就会改变。
所以这次发布最值得记住的,不是“Sonnet 更强了”,而是“足够强的 Sonnet 开始变得足够便宜”。当执行层价格下降,产品经理和工程师才会真的开始重新设计工作流:让 Agent 多验证一步、多派一个子任务、多保留一点上下文,也让高能力模型回到最该出现的关键节点上。
参考来源
- Anthropic:Introducing Claude Sonnet 5
- TechCrunch:Anthropic launches Claude Sonnet 5 as a cheaper way to run agents
- GitHub Blog:Claude Sonnet 5 is generally available for GitHub Copilot
- Kingy AI:Claude Sonnet 5 Benchmarks, Specs, Pricing & Everything New(模型测评指标图来源)
以上来源主要用于核对官方发布口径、价格、模型定位和接入入口;社区反馈与媒体转述不等同于独立基准测试。