<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>工程管理 on 奇诺分享 | 重在分享</title>
        <link>https://blog.ccino.org/tags/%E5%B7%A5%E7%A8%8B%E7%AE%A1%E7%90%86/</link>
        <description>Recent content in 工程管理 on 奇诺分享 | 重在分享</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Mon, 27 Apr 2026 09:00:00 +0800</lastBuildDate><atom:link href="https://blog.ccino.org/tags/%E5%B7%A5%E7%A8%8B%E7%AE%A1%E7%90%86/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Anthropic 认错了：三个「独立变更」如何把 Claude Code 变成了故障现场</title>
        <link>https://blog.ccino.org/p/anthropic-claude-code-engineering-failure-2026/</link>
        <pubDate>Mon, 27 Apr 2026 09:00:00 +0800</pubDate>
        
        <guid>https://blog.ccino.org/p/anthropic-claude-code-engineering-failure-2026/</guid>
        <description>&lt;img src="https://blog.ccino.org/p/anthropic-claude-code-engineering-failure-2026/imgs/cover.png" alt="Featured image of post Anthropic 认错了：三个「独立变更」如何把 Claude Code 变成了故障现场" /&gt;&lt;p&gt;4 月 24 日，Anthropic 通过 Fortune 和 The Decoder 公开承认了一件事：过去一个多月，Claude Code 持续让用户失望，不是模型能力本身出了问题，而是三次独立的工程变更同时发作，叠加出一场没人预料到的质量崩塌。&lt;/p&gt;
&lt;p&gt;这不是 Anthropic 第一次面对用户抱怨，但这次是他们第一次把具体的失误说清楚了。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;三个变更三层伤害&#34;&gt;三个变更，三层伤害
&lt;/h2&gt;&lt;p&gt;Fortune 的报道还原了时间线。三次变更分散在将近七周内，每一次在当时都是独立的决策，没有人意识到它们叠在一起会是什么效果。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第一次，3 月 4 日：推理强度被悄悄调低。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;Anthropic 把 Claude Code 的默认推理努力等级从 &lt;code&gt;high&lt;/code&gt; 改为 &lt;code&gt;medium&lt;/code&gt;，理由是降低延迟、减少响应时间。这个改动没有公告。用户注意到的是：复杂任务开始出现偷懒，原本能一步解决的问题开始给出&amp;quot;我需要更多信息&amp;quot;的回避答案。Anthropic 后来承认，&amp;ldquo;这个权衡是错误的&amp;rdquo;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第二次，3 月 26 日：一个 bug 让模型开始失忆。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;新的 bug 导致模型在同一个会话中持续丢弃自己的推理历史，使响应看起来前后矛盾、反复绕圈。更糟糕的是，这个行为在用掉大量 token 的同时没有产出任何有效结果——用户的配额在静默中被消耗。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;第三次，4 月 16 日：每次工具调用之间的回复被限制在 25 个词以内。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这是三个变更中影响最直接可见的一次。Anthropic 在系统提示词里加了一条限制，把工具调用之间的自然语言回复硬性压缩到 25 个词。这个数字在代码协作场景里几乎什么都说不清楚。公司自己后来承认，这&amp;quot;显著伤害了编码质量&amp;quot;。四天后，4 月 20 日，这条限制被撤回。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;用户感知到的不是性能下降是被欺骗&#34;&gt;用户感知到的不是&amp;quot;性能下降&amp;quot;，是&amp;quot;被欺骗&amp;quot;
&lt;/h2&gt;&lt;p&gt;这段时间里，r/ClaudeAI 出现了一篇标题直接的帖子：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;&amp;ldquo;Claude Opus 4.7 is a serious regression, not an upgrade.&amp;rdquo;&lt;/strong&gt;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;这篇帖子最终获得 3186 个赞、803 条评论，热度几乎与 Anthropic 官方发布 Opus 4.7 的介绍帖持平。&lt;/p&gt;
&lt;p&gt;但用户的愤怒不只是因为工具变差了。一位开发者在评论区写道：&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;&amp;ldquo;After they gaslit users and pretended nothing was wrong&amp;hellip;Anthropic finally admit on the day GPT-5.5 releases there is a problem.&amp;rdquo;&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;时机刺眼：Anthropic 公开认错的那天，正好是 OpenAI 发布 GPT-5.5 的同一天，4 月 24 日。不管这是不是巧合，很多用户选择不相信是巧合。&lt;/p&gt;
&lt;p&gt;AMD 的一位 AI 高管公开表示，Claude Code 已经&amp;quot;对复杂工程任务不可用&amp;quot;。多名订阅者取消了服务。有安全公司量化了这次崩塌：代码质量下降 47%，Claude Opus 4.7 在测试任务中引入安全漏洞的概率从 51% 升到 52%——而同期 OpenAI 模型的漏洞率约为 30%。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;opus-47-的另一面过度审查的申诉爆炸&#34;&gt;Opus 4.7 的另一面：过度审查的申诉爆炸
&lt;/h2&gt;&lt;p&gt;与性能问题并行的，是 Opus 4.7 的安全防护机制开始大量误判。&lt;/p&gt;
&lt;p&gt;The Register 整理了一批案例，其中有两个尤其离奇：&lt;/p&gt;
&lt;p&gt;一是 LSU 网络安全实验室主任，因为向 Claude 提交了包含基础密码学练习的实验室材料而遭到拒绝。他在社交媒体写道：&amp;ldquo;如果模型被限制到网络安全教育工作者无法使用的程度，这对安全有何帮助？&amp;rdquo;&lt;/p&gt;
&lt;p&gt;二是一名开发者，想让 Claude 处理一份孩之宝《怪物史瑞克》玩具广告 PDF，结果被拒绝。排查后发现触发词是 PDF 内容流里的文本 &lt;code&gt;CHARACTER OR FOR DONKEY UNDERNEATH&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;申诉数量的变化更说明问题：2025 年 7 月到 9 月，每月 2—3 起；10 月到 11 月，每月 5—7 起；到 2026 年 4 月，单月超过 30 起，翻了将近 10 倍。&lt;/p&gt;
&lt;p&gt;一个有意思的技术细节：根据此前泄露的 Claude Code 源代码，其安全分类器似乎使用了正则表达式做内容检测——只匹配禁用词汇，而不理解上下文。如果这是真的，那个案例就说得通了：&lt;code&gt;DONKEY UNDERNEATH&lt;/code&gt; 这个词组对关键词过滤器来说模式高度可疑，哪怕原文不过是玩具说明书里的安装指引。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;为什么三个独立变更会产生系统性崩塌&#34;&gt;为什么三个&amp;quot;独立&amp;quot;变更会产生系统性崩塌
&lt;/h2&gt;&lt;p&gt;这里有一个软件工程里的经典问题，常被称为&amp;quot;变更交互效应&amp;quot;（change interaction effect）：每个变更单独测试时都在可接受范围内，但叠加之后，各自的副作用开始互相放大。&lt;/p&gt;
&lt;p&gt;具体在这个案例里：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;推理强度降低（变更一），让模型在面对模糊任务时更容易走捷径；&lt;/li&gt;
&lt;li&gt;推理历史丢失（变更二），让这种走捷径的行为更难被用户理解和纠正；&lt;/li&gt;
&lt;li&gt;25 词限制（变更三），让用户甚至无法从 Claude 那里得到足够的信息来判断出了什么问题。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;三个变更独立存在时，没有一个会让用户感觉&amp;quot;不可用&amp;quot;。叠在一起，结果是用户在用一个看起来在运行、实际上在糊弄他们的工具。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/anthropic-claude-code-engineering-failure-2026/imgs/three-changes-timeline.png&#34;
	width=&#34;1376&#34;
	height=&#34;768&#34;
	srcset=&#34;https://blog.ccino.org/p/anthropic-claude-code-engineering-failure-2026/imgs/three-changes-timeline_hu_22d2d0fd5027561f.png 480w, https://blog.ccino.org/p/anthropic-claude-code-engineering-failure-2026/imgs/three-changes-timeline_hu_a658132ebdafc9b2.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;三次独立变更叠加导致质量崩塌的时间线&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;这不是偶发的 bug，而是缺乏跨系统集成测试和变更影响评估机制的结构性后果。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;anthropic-承诺了什么&#34;&gt;Anthropic 承诺了什么
&lt;/h2&gt;&lt;p&gt;公开认错之后，Anthropic 承诺了几件事：在推出任何影响核心用户体验的变更前，引入更严格的质量控制流程；建立跨系统的集成测试机制；对影响性能的隐性变更保持透明。&lt;/p&gt;
&lt;p&gt;这些承诺写起来都很容易。&lt;/p&gt;
&lt;p&gt;对开发者来说，更有说服力的不是承诺，而是行动：25 词限制在四天内撤回了，这算一个数据点。推理强度是否已经恢复到 &lt;code&gt;high&lt;/code&gt;，推理历史的 bug 是否已经修复，官方没有明确说明。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;工具变成基础设施之后工程纪律的代价变了&#34;&gt;工具变成基础设施之后，工程纪律的代价变了
&lt;/h2&gt;&lt;p&gt;Claude Code 在过去一年里完成了一个迁移：从&amp;quot;很厉害的 AI 编程助手&amp;quot;变成了很多开发者工作流里的必要环节。当它只是一个辅助工具时，变差一点是体验问题；当它嵌入 CI/CD 流程、成为代码审查链路的一部分，变差一点是业务问题。&lt;/p&gt;
&lt;p&gt;这也是 Anthropic 这次压力格外大的原因之一：抱怨最响亮的用户，恰恰是把 Claude Code 用得最深的用户。&lt;/p&gt;
&lt;p&gt;传统软件公司对于这种迁移已经有了一套对应的工程文化：功能标志（feature flags）、灰度发布、A/B 实验、回滚机制、变更窗口的协调评审。Anthropic 不是不知道这些，但他们在一个快速扩张的阶段，显然没有把这套文化建设到位。&lt;/p&gt;
&lt;p&gt;AI 工具公司普遍面临的一个结构性挑战是：模型行为的变化不像传统代码改动那样边界清晰，更难追踪、更难测试、更容易在组合下产生意外效果。这不是借口，但这是真实的技术难度。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/anthropic-claude-code-engineering-failure-2026/imgs/engineering-discipline.png&#34;
	width=&#34;1376&#34;
	height=&#34;768&#34;
	srcset=&#34;https://blog.ccino.org/p/anthropic-claude-code-engineering-failure-2026/imgs/engineering-discipline_hu_bc71338c1035b6ef.png 480w, https://blog.ccino.org/p/anthropic-claude-code-engineering-failure-2026/imgs/engineering-discipline_hu_bb219bd52c944ff6.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;从辅助工具到生产基础设施——工程纪律的代价已经不一样了&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;把这件事讲清楚，是 Anthropic 这次认错之后还没有做到的部分。用户知道出了什么问题了，但还不知道 Anthropic 对这个技术难度有没有足够深刻的认识——以及是否已经为此配备了足够的工程资源。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;参考来源&#34;&gt;参考来源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://fortune.com/2026/04/24/anthropic-engineering-missteps-claude-code-performance-decline-user-backlash/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Anthropic explains Claude Code&amp;rsquo;s recent performance decline after weeks of user backlash — Fortune&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://the-decoder.com/anthropic-confirms-claude-code-problems-and-promises-stricter-quality-controls/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Anthropic confirms Claude Code problems and promises stricter quality controls — The Decoder&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.theregister.com/2026/04/23/claude_opus_47_auc_overzealous/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Claude Opus 4.7 has turned into an overzealous query cop — The Register&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.theregister.com/2026/04/13/claude_outage_quality_complaints/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Claude is getting worse, according to Claude — The Register&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://fortune.com/2026/04/14/anthropic-claude-performance-decline-user-complaints-backlash-lack-of-transparency-accusations-compute-crunch/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Anthropic faces user backlash over reported performance issues — Fortune&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://thenewstack.io/claude-opus-47-flaky-performance/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AI shrinkflation: Why Anthropic&amp;rsquo;s Claude Opus 4.7 may be less capable — The New Stack&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
