<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>AI透明度 on 奇诺分享 | 重在分享</title>
        <link>https://blog.ccino.org/tags/ai%E9%80%8F%E6%98%8E%E5%BA%A6/</link>
        <description>Recent content in AI透明度 on 奇诺分享 | 重在分享</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 09 Apr 2026 10:00:00 +0800</lastBuildDate><atom:link href="https://blog.ccino.org/tags/ai%E9%80%8F%E6%98%8E%E5%BA%A6/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>你花$20订阅的Claude，推理能力已悄悄少了三分之二</title>
        <link>https://blog.ccino.org/p/anthropic-opus46-reasoning-drop-hidden-2026/</link>
        <pubDate>Thu, 09 Apr 2026 10:00:00 +0800</pubDate>
        
        <guid>https://blog.ccino.org/p/anthropic-opus46-reasoning-drop-hidden-2026/</guid>
        <description>&lt;img src="https://blog.ccino.org/p/anthropic-opus46-reasoning-drop-hidden-2026/imgs/cover.png" alt="Featured image of post 你花$20订阅的Claude，推理能力已悄悄少了三分之二" /&gt;&lt;p&gt;四月初，r/ClaudeAI 社区里出现了一个帖子，标题很平静：&lt;strong&gt;&amp;ldquo;Something happened to Opus 4.6&amp;rsquo;s reasoning effort&amp;rdquo;&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;帖主没有愤怒，没有指责，只是上传了一张对比截图：同样的提示词，同样的任务，几周前的Opus 4.6会调用几千个thinking token仔细推理，而现在——它的思考几乎消失了。&lt;/p&gt;
&lt;p&gt;这个帖子最终获得了 &lt;strong&gt;⬆️2917 赞和 427 条评论&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;几天后，另一个帖子出现了，措辞就没那么客气了：&lt;strong&gt;&amp;ldquo;Anthropic stayed quiet until someone showed Claude&amp;rsquo;s thinking depth dropped 67%&amp;rdquo;&lt;/strong&gt;。又是 &lt;strong&gt;⬆️1669 赞，242 条评论&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;两帖合计超过4500赞，成为本周 r/ClaudeAI 最热话题之一。&lt;/p&gt;
&lt;p&gt;Anthropic到底做了什么？更重要的是，它&lt;strong&gt;没做什么&lt;/strong&gt;？&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;事件还原用户如何发现的&#34;&gt;事件还原：用户如何发现的
&lt;/h2&gt;&lt;p&gt;要理解这件事，得先明白Claude的&amp;quot;扩展思考&amp;quot;（Extended Thinking）功能是怎么工作的。&lt;/p&gt;
&lt;p&gt;当你使用Opus 4.6的推理模式时，模型会先用一段&amp;quot;内部思考&amp;quot;来分析问题，这段思考会消耗token——就像你在纸上打草稿，打得越多，推理越深入，答案往往越准确。&lt;/p&gt;
&lt;p&gt;几位重度用户发现，&lt;strong&gt;4月初的Opus 4.6在推理任务上的thinking token数量，相比一个月前大幅减少&lt;/strong&gt;。他们做了系统性测试：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用相同的数学证明题测试，thinking token从早期的约 &lt;strong&gt;8,000-12,000 个&lt;/strong&gt;降到了 &lt;strong&gt;2,000-4,000 个&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;用同样的代码架构设计题，推理深度下降约 &lt;strong&gt;67%&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;最终答案质量可感知地变差，尤其是需要多步骤推理的任务&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这不是玄学，是可量化的性能退化。&lt;/p&gt;
&lt;p&gt;问题来了：&lt;strong&gt;Anthropic什么时候公告过这件事？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;没有。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;67意味着什么&#34;&gt;67%，意味着什么？
&lt;/h2&gt;&lt;p&gt;有人可能会问：thinking token少一点，有那么严重吗？&lt;/p&gt;
&lt;p&gt;严重。&lt;/p&gt;
&lt;p&gt;打个比方：你雇了一个工程师解决复杂bug，他原来会花3小时仔细分析代码路径，现在只花1小时草草看一遍就给你答案。答案可能看起来差不多，但在真正复杂的问题上，差距会暴露出来。&lt;/p&gt;
&lt;p&gt;Claude的Extended Thinking正是为了解决这类&amp;quot;需要深度推理&amp;quot;的任务而设计的：数学证明、代码架构、法律分析、战略规划。这些场景里，thinking token的削减直接等于推理质量的削减。&lt;/p&gt;
&lt;p&gt;更让用户不满的是：&lt;strong&gt;为这个功能付钱的，正是那些最需要深度推理的用户&lt;/strong&gt;。Claude Pro订阅每月 $20，Claude Max 高达每月 $100-$200，宣传卖点之一就是Opus模型的扩展思考能力。&lt;/p&gt;
&lt;p&gt;你买的是一辆V8发动机，发现它偷偷换成了V4，而销售手册还没更新。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/anthropic-opus46-reasoning-drop-hidden-2026/imgs/thinking-token-comparison.png&#34;
	width=&#34;2752&#34;
	height=&#34;1536&#34;
	srcset=&#34;https://blog.ccino.org/p/anthropic-opus46-reasoning-drop-hidden-2026/imgs/thinking-token-comparison_hu_ee9ad724e2bad21e.png 480w, https://blog.ccino.org/p/anthropic-opus46-reasoning-drop-hidden-2026/imgs/thinking-token-comparison_hu_e6c7029fce782786.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;thinking token对比：之前8000-12000，现在只剩2000-4000，骤降67%&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;anthropic的沉默&#34;&gt;Anthropic的沉默
&lt;/h2&gt;&lt;p&gt;在社区爆发之前，没有任何来自Anthropic官方的公告、changelog 或说明。&lt;/p&gt;
&lt;p&gt;这个模式其实已经有迹可循。2024年，OpenAI被用户发现悄悄削减了GPT-4 Turbo的上下文质量，也是社区先发现，官方后跟进。当时引发了一轮关于&amp;quot;AI公司是否有义务通知模型变更&amp;quot;的大讨论，最后不了了之。&lt;/p&gt;
&lt;p&gt;现在轮到Anthropic。&lt;/p&gt;
&lt;p&gt;在用户数据摆出来、帖子大规模传播之后，才有Anthropic的工作人员在评论区现身回应，表示&amp;quot;正在调查&amp;quot;，或者给出含糊的技术解释。&lt;/p&gt;
&lt;p&gt;这种&amp;quot;等用户发现再回应&amp;quot;的模式，本质上是一种&lt;strong&gt;信息不对称的默认选项&lt;/strong&gt;——如果没有足够多有技术能力的用户去检测、测量和发声，普通用户永远不会知道他们使用的模型被降级了。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;这不是孤例ai厂商的静默降级历史&#34;&gt;这不是孤例：AI厂商的&amp;quot;静默降级&amp;quot;历史
&lt;/h2&gt;&lt;p&gt;AI行业有一个不成文的惯例：&lt;strong&gt;模型可以随时更新，不需要通知用户&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这在技术上是合理的——模型需要持续优化，版本迭代是常态。但问题在于，&amp;ldquo;优化&amp;quot;和&amp;quot;降级&amp;quot;之间的界限从来没有被清晰定义过，而厂商显然不会主动区分。&lt;/p&gt;
&lt;p&gt;几个有记录的案例：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;OpenAI GPT-4（2023-2024年）&lt;/strong&gt;：多位研究者发表论文，证明GPT-4在数学、代码和推理任务上的性能随时间系统性下降。OpenAI最初否认，后来承认进行了&amp;quot;效率优化&amp;rdquo;。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;GPT-4o的视觉能力（2024年）&lt;/strong&gt;：用户发现GPT-4o在图像理解任务上的质量大幅下降，事后发现是Anthropic调整了模型的视觉权重以降低计算成本。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Claude 2 到 Claude 2.1&lt;/strong&gt;：Anthropic在版本更新时削减了部分推理能力，这次有官方changelog，但描述极为模糊。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Opus 4.6 thinking depth（2026年）&lt;/strong&gt;：本次事件。&lt;/p&gt;
&lt;p&gt;规律很清晰：当优化带来成本节省时，厂商倾向于悄悄执行。当用户发现时，先沉默，再给出技术性解释（&amp;ldquo;这是权衡&amp;rdquo;、&amp;ldquo;整体体验更好了&amp;rdquo;），然后继续。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;为什么厂商会这样做&#34;&gt;为什么厂商会这样做？
&lt;/h2&gt;&lt;p&gt;理解这个问题，需要站在商业逻辑的角度。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;Thinking token极其昂贵。&lt;/strong&gt; 每一个thinking token都要消耗真实算力，在模型规模越来越大、用户量越来越多的情况下，thinking深度是最容易也最值得压缩的成本项。用户感知不明显，但财报感知非常明显。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;没有法律约束。&lt;/strong&gt; 目前没有任何规定要求AI公司在模型性能变化时通知用户。服务条款通常写明&amp;quot;功能可能随时变更&amp;quot;，一句话就覆盖了所有情况。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;用户验证成本高。&lt;/strong&gt; 大多数用户没有能力系统性测试模型性能变化，即使感觉&amp;quot;最近Claude变笨了&amp;quot;，也很难量化。这种模糊性保护了厂商。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;竞争压力。&lt;/strong&gt; 承认自家模型降级，相当于给竞争对手递刀子，没有厂商愿意主动做这件事。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;你能做什么&#34;&gt;你能做什么？
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;1. 建立自己的基准测试集&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;选取10-15个你真实工作中常用的、需要深度推理的任务，定期用同样的prompt测试当前模型。这是发现性能变化最直接的方法。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;2. 关注 thinking token 数量&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;如果你使用Claude的Extended Thinking，可以在API层面观察每次调用的thinking token消耗。如果某段时间内这个数字系统性下降，就值得警惕。&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-python&#34; data-lang=&#34;python&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 用API记录thinking usage的简单方法&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;response&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;=&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;client&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;create&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;model&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;claude-opus-4-6&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;max_tokens&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;mi&#34;&gt;16000&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;thinking&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;type&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;enabled&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;budget_tokens&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;mi&#34;&gt;10000&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;},&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;n&#34;&gt;messages&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;[{&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;role&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;user&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;,&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;content&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;your_prompt&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;}]&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 检查实际使用的thinking tokens&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;k&#34;&gt;for&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;block&lt;/span&gt; &lt;span class=&#34;ow&#34;&gt;in&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;response&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;content&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;    &lt;span class=&#34;k&#34;&gt;if&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;block&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;type&lt;/span&gt; &lt;span class=&#34;o&#34;&gt;==&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;thinking&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;:&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;        &lt;span class=&#34;nb&#34;&gt;print&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;sa&#34;&gt;f&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;Thinking tokens used: &lt;/span&gt;&lt;span class=&#34;si&#34;&gt;{&lt;/span&gt;&lt;span class=&#34;nb&#34;&gt;len&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;(&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;block&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;thinking&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;.&lt;/span&gt;&lt;span class=&#34;n&#34;&gt;split&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;())&lt;/span&gt;&lt;span class=&#34;si&#34;&gt;}&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;)&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;strong&gt;3. 参与社区监督&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;r/ClaudeAI 这次的事件表明，用户集体的观察和数据整理是唯一有效的外部监督机制。当你注意到性能异常时，发帖、分享数据，比沉默更有价值。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;4. 考虑保留历史基准&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;如果你依赖Claude完成关键业务，定期保存一批&amp;quot;金标准&amp;quot;问答对，用于纵向对比，建立自己的模型性能追踪体系。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;最后说一句&#34;&gt;最后说一句
&lt;/h2&gt;&lt;p&gt;Anthropic的品牌形象一直建立在&amp;quot;负责任的AI&amp;quot;上——这是他们的核心叙事，也是他们区别于OpenAI的最大卖点。&lt;/p&gt;
&lt;p&gt;但&amp;quot;负责任&amp;quot;如果只体现在安全政策上，而不体现在对付费用户的基本透明度上，那这个品牌承诺就是残缺的。&lt;/p&gt;
&lt;p&gt;用户有权知道，他们付钱使用的模型，昨天和今天是否还是同一个模型。&lt;/p&gt;
&lt;p&gt;这不是过分的要求。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;strong&gt;参考来源&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://reddit.com/r/ClaudeAI/comments/1sfw9b5/something_happened_to_opus_46s_reasoning_effort/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Something happened to Opus 4.6&amp;rsquo;s reasoning effort — r/ClaudeAI&lt;/a&gt;（⬆️2917 💬427）&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://reddit.com/r/ClaudeAI/comments/1ses1qm/anthropic_stayed_quiet_until_someone_showed/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Anthropic stayed quiet until someone showed Claude&amp;rsquo;s thinking depth dropped 67% — r/ClaudeAI&lt;/a&gt;（⬆️1669 💬242）&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
