<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>模型回归 on 奇诺分享 | 重在分享</title>
        <link>https://blog.ccino.org/tags/%E6%A8%A1%E5%9E%8B%E5%9B%9E%E5%BD%92/</link>
        <description>Recent content in 模型回归 on 奇诺分享 | 重在分享</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Sun, 19 Apr 2026 10:00:00 +0800</lastBuildDate><atom:link href="https://blog.ccino.org/tags/%E6%A8%A1%E5%9E%8B%E5%9B%9E%E5%BD%92/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Claude Opus 4.7 翻车了吗？为什么官方说更强，老用户却说是回归</title>
        <link>https://blog.ccino.org/p/claude-opus47-backlash-community-split-2026/</link>
        <pubDate>Sun, 19 Apr 2026 10:00:00 +0800</pubDate>
        
        <guid>https://blog.ccino.org/p/claude-opus47-backlash-community-split-2026/</guid>
        <description>&lt;img src="https://blog.ccino.org/p/claude-opus47-backlash-community-split-2026/imgs/cover.png" alt="Featured image of post Claude Opus 4.7 翻车了吗？为什么官方说更强，老用户却说是回归" /&gt;&lt;h2 id=&#34;两套叙事&#34;&gt;两套叙事
&lt;/h2&gt;&lt;p&gt;4月16日，Anthropic 正式发布 Claude Opus 4.7。&lt;/p&gt;
&lt;p&gt;科技媒体的报道很统一：Mashable 的标题是 &lt;strong&gt;&amp;ldquo;Anthropic: Claude Opus 4.7 has a 92% honesty rate, fewer hallucinations&amp;rdquo;&lt;/strong&gt;（Anthropic：Claude Opus 4.7 拥有 92% 的诚实度，幻觉更少），VentureBeat 称其 &lt;strong&gt;&amp;ldquo;narrowly retaking lead for most powerful generally available LLM&amp;rdquo;&lt;/strong&gt;（以微弱优势重获最强公开可用大模型宝座）。&lt;/p&gt;
&lt;p&gt;官方系统卡（system card，模型评估报告）展示的数据也很漂亮：MASK 诚实度基准（Model Alignment between Statements and Knowledge，陈述与知识一致性基准）达到 91.7%，比 Opus 4.6 的 90.3% 更高；各类幻觉测试均有改善；新增高分辨率图像支持（3.75MP）、任务预算机制（task budget）、xhigh 推理等级。&lt;/p&gt;
&lt;p&gt;同一天，r/ClaudeAI 社区出现了一个帖子，标题没那么客气：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;&amp;ldquo;Claude Opus 4.7 is a serious regression, not an upgrade.&amp;rdquo;&lt;/strong&gt;（Claude Opus 4.7 是一次严重回归，而非升级）&lt;/p&gt;
&lt;p&gt;这个帖子最终获得了 &lt;strong&gt;⬆️3186 赞和 803 条评论&lt;/strong&gt;——几乎与官方介绍帖的 ⬆️3313 赞持平。&lt;/p&gt;
&lt;p&gt;一边是 92% honesty（诚实度）的官方数据，一边是高赞差评的用户抱怨。&lt;/p&gt;
&lt;h2 id=&#34;官方的叙事&#34;&gt;官方的叙事
&lt;/h2&gt;&lt;p&gt;Anthropic 对 Opus 4.7 的宣传重点很明确：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;诚实度和幻觉改善&lt;/strong&gt;：官方系统卡显示，Opus 4.7 在 MASK 诚实度基准上达到 91.7%，比 Opus 4.6 的 90.3% 有所提升（虽然仍低于 Opus 4.5 的 95.4%）。各类幻觉测试——事实幻觉、输入幻觉、错误前提拒绝——均有改善。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;新特性&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;高分辨率图像支持&lt;/strong&gt;：最大分辨率从 1.15MP 提升至 3.75MP，坐标映射 1:1，更适合文档理解和计算机视觉任务&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;任务预算机制（task budget）&lt;/strong&gt;：让模型在 agentic 循环（代理循环）中自动优先处理任务并优雅收尾&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;xhigh 推理等级（effort level）&lt;/strong&gt;：介于 high 和 max 之间，提供更精细的推理/延迟控制&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;能力提升&lt;/strong&gt;：官方文档称 Opus 4.7 在高级编程、文档分析、视觉任务、记忆系统上都有&amp;quot;meaningful gains&amp;quot;（显著提升）。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/claude-opus47-backlash-community-split-2026/imgs/official-metrics.png&#34;
	width=&#34;2752&#34;
	height=&#34;1536&#34;
	srcset=&#34;https://blog.ccino.org/p/claude-opus47-backlash-community-split-2026/imgs/official-metrics_hu_57a36bff8fee4698.png 480w, https://blog.ccino.org/p/claude-opus47-backlash-community-split-2026/imgs/official-metrics_hu_8304a1fcd396b0f5.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;官方数据：诚实度提升与三大新特性&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;h2 id=&#34;用户的体验&#34;&gt;用户的体验
&lt;/h2&gt;&lt;p&gt;Reddit 和 X/Twitter 上的抱怨集中在几个方面：&lt;/p&gt;
&lt;h3 id=&#34;1-token-消耗暴增&#34;&gt;1. Token 消耗暴增
&lt;/h3&gt;&lt;p&gt;Opus 4.7 采用了新的 tokenizer（分词器），Anthropic 承认这会导致&lt;strong&gt;相同输入消耗 1x 到 1.35x 倍的 token&lt;/strong&gt;（最多增加 35%）。&lt;/p&gt;
&lt;p&gt;Business Insider 报道中，一位用户评论说：&amp;ldquo;Opus 4.7 eats usage like nuclear reactor.&amp;quot;（Opus 4.7 像核反应堆一样吞噬配额）。另一位说：&amp;ldquo;I just reached my monthly limit just by reading this.&amp;quot;（我光看这篇文章就用完了月度配额）。&lt;/p&gt;
&lt;p&gt;对于按使用量计费的 Claude Pro 订阅者来说，这意味着同样的问题，同样的对话，成本可能上升三分之一。&lt;/p&gt;
&lt;h3 id=&#34;2-能力问题&#34;&gt;2. 能力问题
&lt;/h3&gt;&lt;p&gt;用户报告的问题包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;简单任务失败&lt;/strong&gt;：有用户截图显示，Opus 4.7 在数 &amp;ldquo;strawberry&amp;rdquo;（草莓）里有几个 p 时出错&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&amp;ldquo;being lazy&amp;rdquo;&lt;/strong&gt;（偷懒）：模型承认自己&amp;quot;being lazy&amp;quot;而不做交叉引用&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;态度变化&lt;/strong&gt;：多位用户提到模型变得更 &amp;ldquo;combative&amp;rdquo;（好争辩）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;幻觉增加&lt;/strong&gt;：Reddit 帖子 &amp;ldquo;Opus 4.7 is a master hallucinator&amp;rdquo;（Opus 4.7 是幻觉大师）获得高赞&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;更严重的是基准测试数据。Startup Fortune 报道称，在 MRCR（长文档检索与推理）基准上，Opus 4.6 得分 78.3%，而 Opus 4.7 仅得 &lt;strong&gt;32.2%&lt;/strong&gt;——这不仅是回归，简直是崩溃。&lt;/p&gt;
&lt;p&gt;Anthropic 开发者解释，公司正在&lt;strong&gt;逐步淘汰 MRCR 基准&lt;/strong&gt;，因为它不能准确反映模型的实际使用场景。用户很难信服：如果基准不能反映实际使用，为什么之前用它来证明 4.6 的能力？&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/claude-opus47-backlash-community-split-2026/imgs/user-backlash.png&#34;
	width=&#34;2752&#34;
	height=&#34;1536&#34;
	srcset=&#34;https://blog.ccino.org/p/claude-opus47-backlash-community-split-2026/imgs/user-backlash_hu_c020b85c41d93123.png 480w, https://blog.ccino.org/p/claude-opus47-backlash-community-split-2026/imgs/user-backlash_hu_a56be6917b428408.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;用户体验：Token 暴增、能力回退与社区差评&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;h3 id=&#34;3-claude-code-用户的崩溃&#34;&gt;3. Claude Code 用户的崩溃
&lt;/h3&gt;&lt;p&gt;Claude Code——Anthropic 的旗舰开发者产品——也出现了问题。&lt;/p&gt;
&lt;p&gt;GitHub issues #48167 标题直接是：&amp;ldquo;major quality and performance regression&amp;rdquo;（重大质量和性能回归）。多位工程师报告：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;代码审查漏掉明显问题&lt;/li&gt;
&lt;li&gt;拒绝执行合理的任务&lt;/li&gt;
&lt;li&gt;对简单问题给出错误答案&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一位用户在 X 上说：&amp;ldquo;Opus 4.7 is the first time I&amp;rsquo;ve thought &amp;lsquo;Anthropic may be moving too fast&amp;rsquo;. Just feels sloppy.&amp;quot;（Opus 4.7 让我第一次觉得&amp;rsquo;Anthropic 可能走得太快了&amp;rsquo;。就是感觉草率。）&lt;/p&gt;
&lt;h2 id=&#34;分裂的原因&#34;&gt;分裂的原因
&lt;/h2&gt;&lt;p&gt;官方测试的维度和用户实际使用的维度不是一回事。&lt;/p&gt;
&lt;p&gt;Anthropic 强调&amp;quot;诚实度&amp;quot;和&amp;quot;幻觉率&amp;rdquo;，这些是安全性指标。用户关心的是能不能把活干好，这是功能性指标。&lt;/p&gt;
&lt;p&gt;一个模型可以在&amp;quot;拒绝回答错误前提&amp;quot;上得分更高，但同时变得更固执、更不愿意顺着用户的思路工作。从安全角度看这是进步，从用户体验角度看可能是倒退。&lt;/p&gt;
&lt;p&gt;测试环境与实际使用也存在差异。Anthropic 的基准测试在理想条件下进行，用户的实际场景千差万别——长上下文、复杂工具调用、多轮对话。标准基准捕捉不到这些场景下的问题。&lt;/p&gt;
&lt;h2 id=&#34;mythos-因素&#34;&gt;Mythos 因素
&lt;/h2&gt;&lt;p&gt;Anthropic 的系统卡反复将 Opus 4.7 与未发布的 Mythos 模型对比。Mythos 在各项指标上都更优秀——Mashable 指出，Mythos 的 MASK 诚实度达到 95.4%，远超 Opus 4.7。&lt;/p&gt;
&lt;p&gt;Anthropic 的&amp;quot;旗舰&amp;quot;能力在 Mythos 身上，公开发布的 Opus 4.7 更像是&amp;quot;二等品&amp;rdquo;。&lt;/p&gt;
&lt;p&gt;如果 Anthropic 的研发资源正在向 Mythos 这样的企业级模型倾斜（通过 Project Glasswing 合作伙伴计划提供），公开发布的模型可能会变得&amp;quot;更安全但更无聊&amp;rdquo;。对普通用户来说，这不是升级。&lt;/p&gt;
&lt;h2 id=&#34;社区情绪的转折点&#34;&gt;社区情绪的转折点
&lt;/h2&gt;&lt;p&gt;Claude 一直被视为&amp;quot;AI 界的良心&amp;quot;——安全第一、透明度高、尊重用户。这种形象正在受到考验。&lt;/p&gt;
&lt;p&gt;Opus 4.6 的&amp;quot;推理深度悄悄下降 67%&amp;ldquo;事件已经让社区信任受损（我们之前写过）。现在 Opus 4.7 的发布，又带来了 token 消耗增加、用户体验下降的问题。&lt;/p&gt;
&lt;p&gt;Business Insider 将此称为&amp;quot;The Claude-lash&amp;rdquo;（Claude 反噬）——这对一个以用户好感度著称的产品来说，是相对罕见的情况。&lt;/p&gt;
&lt;p&gt;一位用户在 Anthropic 的官方帖子下留言：&amp;ldquo;Please open back support for Opus 4.5. 4.6 is unusable and 4.7 eats usage like nuclear reactor.&amp;quot;（请重新支持 Opus 4.5。4.6 不可用，4.7 像核反应堆一样吞噬配额。）&lt;/p&gt;
&lt;p&gt;这条评论获得了大量点赞。用户怀念的不是一个抽象的&amp;quot;版本号&amp;rdquo;，而是那种&amp;quot;这个 AI 真的懂我在说什么&amp;quot;的感觉。&lt;/p&gt;
&lt;h2 id=&#34;anthropic-的挑战&#34;&gt;Anthropic 的挑战
&lt;/h2&gt;&lt;p&gt;Anthropic 面临的问题是：如何在安全性和可用性之间找到平衡。&lt;/p&gt;
&lt;p&gt;Opus 4.7 的设计方向更强调安全性，降低幻觉、提高诚实度、拒绝危险任务。这对企业客户很重要。但对普通用户来说，如果代价是模型变得&amp;quot;更笨&amp;quot;或&amp;quot;更固执&amp;quot;，他们不会认为这是升级。&lt;/p&gt;
&lt;p&gt;透明度也是问题。Anthropic 对 tokenizer 变化、基准淘汰、API 行为改变都有文档说明，但这些信息散落在各个地方。普通用户很难完整理解。当他们发现&amp;quot;同样的问题，现在要花更多钱&amp;quot;或&amp;quot;以前能做的，现在做不了&amp;quot;时，自然会觉得被&amp;quot;悄悄降级&amp;quot;。&lt;/p&gt;
&lt;h2 id=&#34;写在最后&#34;&gt;写在最后
&lt;/h2&gt;&lt;p&gt;从 Anthropic 的内部指标看——诚实度、幻觉率、安全性——Opus 4.7 可能是进步。但从核心用户的实际体验看——Token 消耗、任务完成度、交互友好性——这可能是回归。&lt;/p&gt;
&lt;p&gt;信任才是问题。当官方数据和用户感受持续分裂时，Anthropic 需要的不是&amp;quot;解释为什么我们的数据是对的&amp;quot;，而是&amp;quot;理解为什么用户的感受是对的&amp;quot;。&lt;/p&gt;
&lt;p&gt;AI 产品最终不是靠基准测试成功，而是靠用户愿意付费使用。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;strong&gt;参考来源&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://mashable.com/article/anthropic-claude-opus-4-7-hallucination-rate&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Mashable: Anthropic says Claude Opus 4.7 has a 92% honesty rate, fewer hallucinations&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.businessinsider.com/anthropic-claude-opus-4-7-backlash-tokens-2026-4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Business Insider: The Claude-lash is here — Opus 4.7 is burning through tokens&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://startupfortune.com/anthropics-claude-opus-47-launch-has-triggered-a-wave-of-community-backlash-that-may-be-entirely-justified/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Startup Fortune: Anthropic&amp;rsquo;s Claude Opus 4.7 launch has triggered a wave of community backlash&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Claude API Docs: What&amp;rsquo;s new in Claude Opus 4.7&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.reddit.com/r/ClaudeAI/comments/1snhfzd/claude_opus_47_is_a_serious_regression_not_an/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Reddit: Claude Opus 4.7 is a serious regression, not an upgrade&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/anthropics/claude-code/issues/48167&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;GitHub Issue: major quality and performance regression&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
