Claude 准确率从 21% 到 95%：企业 AI 真正缺的不是模型，而是上下文

Anthropic 最近有一个内部案例：Claude 现在已经处理了 Anthropic 内部 95% 的分析查询（analytics queries）。相关摘要里还提到，Anthropic 把这个结果主要归因于数据治理、语义定义和运营纪律，而不是单纯归因于模型能力升级。

这个说法需要先画一条边界：我没有看到 Anthropic 发布的完整白皮书或可复现实验数据，公开可见的信息主要来自网络和 X 上的二次转述。有人在 X 上补充说，Claude 在有组织上下文时分析准确率可以到 95% 左右，而在缺少上下文时只有 21% 左右。这个数字我会当成“案例线索”来讨论，不把它当成独立验证过的行业基准。

但即便只把它当成线索，它也很有意思。因为它把企业 AI 落地里一个经常被忽略的问题摆到了台面上：公司真正缺的，可能不是更聪明的模型，而是能让模型正确工作的上下文。

过去一年，很多公司谈 AI 提效，最爱问两个问题：AI 写了多少代码？省了多少工时？这些问题不是没有意义，但它们很容易把企业 AI 带偏。写代码只是知识工作的一个切面，工时也只是结果的粗糙代理。真正贵的部分，往往藏在更日常、更无聊的地方：有人想知道上周某个产品线的留存为什么掉了，有人要查某个区域的销售转化，有人要解释广告投放为什么变贵，有人要给老板写一份“能不能继续投”的判断。

这些工作不是简单问答。它们需要知道公司内部有哪些表，每个字段是什么意思，哪些指标口径已经被财务和业务确认，哪些数据还没清洗，哪些人有权限看，哪些答案必须留下审计记录。模型再强，如果只被扔进一个没有说明书的数据仓库，也很容易一本正经地胡说。

企业最先被 AI 接管的，可能不是创意工作

很多人想象企业 AI 的画面，是一个员工对着聊天框说“帮我写一个营销方案”，然后模型吐出一篇像样的文案。这个场景当然存在，但它不是最值得下注的地方。

企业里更高频、更刚需的需求，是“帮我查清楚一件事”。

这件事可能很小：昨天哪个渠道的注册用户质量最好？这个月退款率上升是不是某个地区造成的？新版本上线后，老用户使用频率有没有变化？销售团队说某个行业线索质量下降，到底是线索少了，还是转化慢了？

过去做这些事，通常要经历一条很长的链路。业务同事先问数据同事，数据同事确认口径，去数据仓库写 SQL，跑出结果，再解释图表。如果中间发现问题，还要来回改查询。最后得到的可能是一张截图、一段 Slack 回复，或者一份临时做出来的表格。

这条链路慢，不是因为大家懒，也不是因为 SQL 特别难，而是因为每一步都需要上下文。数据在哪里，字段叫什么，口径怎么定，异常值要不要排除，权限能不能给，结果是否可信，这些都不是模型从互联网上学一学就知道的。

如果 Claude 真能处理 Anthropic 内部 95% 的分析查询，那它改变的就不是“写报告的效率”，而是把这条分析链路压短了。业务人员不一定要先排队等数据同学，不一定要把问题翻译成 SQL，也不一定要在一堆 dashboard（仪表盘）里找入口。他可以直接问一个被接入组织上下文的 Agent（智能体）。

企业分析链路被 Claude 分析 Agent 压缩 图：从业务问题、数据表、指标口径到权限检查，内部分析 Agent 的价值不是替人写一段报告，而是把原本要反复沟通的查数链路压短。

这才是企业 AI 比较现实的落点：不是先替掉某个岗位，而是先吞掉公司内部大量“查数、解释、归因、汇报”的中间环节。

21% 到 95%，差的不是提示词

如果那个“无上下文 21%、有上下文 95%”的说法大体成立，它最有价值的地方不是 95% 这个数字，而是两个数字之间的落差。

很多公司看到 AI 答得不好，第一反应是换模型，或者让员工学 Prompt Engineering（提示词工程）。于是内部培训变成“如何写好提示词”，文档里堆满了角色设定、输出格式、few-shot 示例。这样做有用，但只解决了很小一块问题。

企业分析不是高考作文。它不是你把问题写清楚，模型就能凭常识答对。它需要三个层面的上下文。

第一层是数据上下文。模型要知道能查哪些数据，表之间怎么关联，哪些字段已经废弃，哪些字段只是临时口径。比如“活跃用户”到底按登录算、按核心行为算，还是按付费行为算，不同公司、不同团队可能完全不同。

第二层是业务上下文。同一个指标变化，在不同业务阶段的含义不一样。新增下降，在成熟产品里可能是危险信号；在主动收缩低质量渠道时，反而可能是健康信号。模型如果不知道公司当前策略，就会把每个波动都解释成通用模板。

第三层是组织上下文。谁能看什么数据，什么结论可以直接对外说，什么结论只能内部讨论，哪些数字需要财务确认，哪些分析必须保留来源。这些东西看起来像流程问题，其实决定了 AI 能不能进入真实工作。

所以，企业 AI 的关键不只是 Prompt Engineering，而是 Context Engineering（上下文工程）。提示词解决“我怎么问”，上下文工程解决“模型凭什么知道我在问什么”。前者更像个人技巧，后者才是公司能力。

从缺少上下文到组织上下文，准确率差距来自数据治理和语义定义 图：同一个模型，放在混乱数据里只能猜；接入数据治理、语义定义、权限和审计记录后，才可能输出能进入决策的分析。

数据治理听起来无聊，但它决定 AI 能不能上桌

“数据治理”这四个字很容易让人犯困。很多公司一提数据治理，就想到建数仓、定指标、做权限、写文档，都是看起来不性感、很难发朋友圈的工作。

但 Anthropic 这个案例的启发恰恰在这里：越是想让 AI 进入核心业务，越绕不开这些无聊工作。

原因很简单。聊天机器人可以犯一点小错，内部分析 Agent 不行。它一旦回答“这个渠道 ROI 最高”“这个客户群值得继续投”“这个产品功能导致留存下降”，后面可能接的是预算、绩效、资源分配，甚至组织调整。这个时候，老板不会满足于一句“根据我的分析”。他会问数据从哪里来，口径是什么，能不能复算，为什么不是另一个结论。

如果公司没有统一指标口径，AI 会把不同团队的定义混在一起。如果权限体系混乱，AI 可能把不该展示的数据展示出来。如果没有审计记录，出了错也不知道是模型推理错了、SQL 写错了，还是数据源本来就脏。

这也是为什么“让 AI 读数据库”听起来简单，真正上线却很难。一个 demo 可以连上 Postgres 跑查询，十分钟就能做出效果；但一个能在公司里长期用的分析 Agent，必须知道什么时候该查，查完怎么解释，不确定时怎么提示，遇到敏感字段怎么拒绝，结论怎么附上依据。

换句话说，企业 AI 的门槛正在从“能不能调用模型”，转向“公司有没有把自己的业务世界整理到机器能理解”。

真正的新 KPI：多少决策准备工作被 Agent 吃掉了

如果继续用“AI 写了多少代码”来衡量企业 AI，很容易低估这类内部分析 Agent 的价值。

代码当然重要，尤其对软件公司来说。但很多企业每天消耗最多的，不是写代码时间，而是决策准备时间。一个会开完，大家发现还缺一张数据表；一个项目推进不下去，是因为没人能说清哪个指标是真的；一个季度复盘，三天都花在对齐口径上。

这些时间不会总是被记录成“工时浪费”，但它们真实存在，而且非常贵。

所以，一个更有意义的企业 AI 指标可能是：公司内部有多少查询、分析、归因和汇报准备工作，可以由 Agent 自助完成，并且结果能被人信任到足以进入会议。

注意，这里有两个条件：自助完成，以及结果可信。只有自助，没有可信，最后会变成更多噪音；只有可信，但每次都要数据团队手动兜底，也很难规模化。企业 AI 的价值，正是在这两个条件同时成立时出现的。

这也是 Anthropic 案例比普通“AI 提效故事”更值得看的原因。它不是在说 Claude 会写漂亮报告，而是在说一个组织把数据、语义、权限和流程整理到一定程度后，AI 可以承担大部分日常分析入口。

国内公司应该先抄哪一部分

如果国内公司要从这个案例里学东西，我不建议一上来就学“95%”。这个数字太漂亮，容易变成新的 PPT 指标。

更实际的做法，是先挑一个高频、低风险、口径相对清楚的内部分析场景。比如销售漏斗、客服工单、内容转化、广告投放、产品留存。不要一开始就让 AI 回答“公司战略怎么调整”，而是让它回答一类重复出现、数据来源明确、人工本来就会查的问题。

然后把这个场景拆成几件事：哪些表可信，指标口径怎么定义，谁能访问，回答必须带哪些引用，哪些问题应该拒答，哪些结论需要提示“仅供参考”。这些工作做完，再接模型，效果通常会比单纯换更贵的模型更稳定。

企业内部也要重新定义数据团队的角色。过去数据团队像“报表和 SQL 服务台”，别人提需求，它来查数。未来更像“AI 分析系统的运营者”：维护指标语义，清理数据源，定义权限边界，检查 Agent 的回答质量，处理失败案例。

这个变化可能比看上去更大。因为一旦业务同事可以直接问 Agent，数据团队的价值就不再是“我会写查询”，而是“我保证这套查询世界是可信的”。

模型负责推理，组织负责让推理有地方落脚

这件事最后可以落到一个很朴素的判断：企业 AI 不是把一个聪明模型接进公司就结束了。

模型负责推理，负责把自然语言问题转成查询、解释和判断。但组织要负责给它一个能落脚的世界。这个世界包括干净的数据、稳定的指标、明确的权限、可追踪的过程，以及人类愿意为结果承担责任的工作方式。

如果没有这个世界，模型越强，反而越危险。它会用更流畅的语言包装不可靠的答案，让人更难发现哪里错了。很多企业 AI 项目的失败，不是因为模型不够聪明，而是因为公司把一个擅长推理的系统，放进了一个口径混乱、权限模糊、数据没人负责的环境里。

Anthropic 这个案例提醒我们，企业 AI 的下一阶段不会只比谁买到了更好的模型。真正的差距会出现在组织内部：谁先把自己的数据、指标和流程整理成 AI 能稳定使用的上下文，谁就能先把 Agent 放进真实决策链。

所以，95% 这个数字可以先不急着崇拜。更值得问的是：如果明天把一个同样强的 Claude 接进你的公司，它能不能知道“收入”到底指什么，“活跃”到底怎么算，“异常”到底由谁确认，以及哪些答案不能随便说？

如果这些问题还答不上来，企业 AI 的瓶颈就不在模型。它在公司自己身上。

参考来源

以上来源用于观察公开摘要和社区转述，不等同于独立基准测试。文中涉及的 95% 和 21% 主要作为案例线索使用，正式引用时仍应以 Anthropic 后续公开原文或完整报告为准。