AI Pointer：提示词之后，下一个交互范式可能是「指给 AI 看」

Wed, 13 May 2026 09:30:00 +0800

DeepMind 这次发了一篇关于 AI Pointer 的文章，表面上是在讲鼠标指针要怎么加 AI，但我读完后反而觉得，它真正戳中的是一个很老的问题：我们和 AI 打交道时，为什么总要先把眼前的东西翻译成一段话？

比如你正在看网页，想让 AI 比较三件商品；或者在 PDF 里看到一段话，想顺手改成邮件里的三条要点；再或者看到地图、图片、视频暂停帧里的某个地方，想知道它是什么、怎么去、能不能预订。

今天的流程通常很笨。截图、复制、粘贴、解释背景，再补一句“我说的是右下角那个”。很多时候，任务本身没那么复杂，复杂的是你要先把屏幕上的上下文搬到聊天框里。

人和人协作不是这样的。我们会指着屏幕说：“这个帮我改一下”“那段总结一下”“这里是什么意思”。对方能理解，不是因为这句话写得多完整，而是因为你们看着同一块屏幕。

DeepMind 在 2026 年 5 月 12 日发布的 AI Pointer 文章讲的就是这个方向：让鼠标指针不仅知道你停在哪个坐标上，还能理解你指向的是什么，以及它和当前任务有什么关系。

如果这条路走通，Prompt 当然还会存在，但它可能不会再承担那么多本不该由语言承担的工作。

我们不是缺提示词技巧，是缺上下文入口

过去一年，很多人都在学怎么写 Prompt。目标要清楚，背景要完整，约束要明确，输出格式要提前规定。这些技巧有用，我自己也经常这么做。

但越用越会发现，这套方法有一个很大的别扭之处：屏幕上已经有的东西，你还要再说一遍。

网页里已经有商品卡片，你还要写“请比较这三个商品的价格、尺寸和评价”。PDF 里已经有表格，你还要说“请把第二页右下角那个表格转成图”。图片里已经有客厅和沙发，你还要描述“把这张沙发放到那张客厅图里”。

这不是用户懒，也不是用户不会写 Prompt，而是交互方式让用户做了太多上下文搬运。

DeepMind 的说法很直接：典型 AI 工具活在自己的窗口里，用户要把自己的世界拖进去；他们想做相反的事，让 AI 出现在用户本来工作的地方。

我觉得这句话比“AI 鼠标指针”本身更重要。

因为它把 AI 产品从聊天框里往外推了一步。AI 不应该只在一个独立窗口里等你输入，它应该能出现在网页、文档、图片、表格、地图这些任务实际发生的地方。

聊天框时代，我们努力把需求说清楚。AI Pointer 想做的，是先把对象指清楚。

「这个」和「那个」为什么重要

DeepMind 在文章里提到四个原则：保持工作流、边指边说、理解 this 和 that、把像素变成可操作对象。

这些词听起来有点产品文档味，但背后的意思并不复杂。

用户在写邮件时，不应该为了让 AI 总结一段 PDF，又跳进另一个聊天窗口重新描述一遍。用户看着一张图时，也不应该为了改其中一块区域，先写一段很长的文字说明。更自然的方式是指过去，然后说一句短话。

“把这段改短。”

“把这个表转成图。”

“这个地方怎么去？”

“把那张沙发放到这里。”

这些话如果单独拿出来看，几乎没有信息量。但在真实场景里，它们很清楚，因为“这个”和“那个”依赖的不是语言本身，而是共同上下文。

电脑过去只知道鼠标在哪个坐标。AI 加进来之后，它有机会知道那个坐标附近是一段日期、一家餐厅、一块代码、一张商品图，还是视频暂停画面里的某个建筑。

对象一旦被识别出来，动作就接得上了。日期可以变成日程，餐厅可以变成路线或预订，商品可以进入比较表，图片区域可以被编辑，代码块可以被解释或重构。

所以 AI Pointer 不是简单给右键菜单加几个 AI 按钮。它更像是在尝试把屏幕上的东西重新语义化，让 AI 能看懂用户正在处理的对象。

这一步做成之后，用户就不必每次都先把上下文从界面里挖出来，再塞给 AI。

从“听你描述”到“看你指向”

Prompt 是把意图压缩成语言。

Pointer 是把意图绑定到对象。

两者差别很大。

你说“帮我总结一下这份报告”，AI 还要继续问：哪份报告？哪一部分？给谁看？要多长？用什么语气？

但如果你在报告里选中一段，直接说“改成给老板看的版本”，范围已经确定了一半。AI 要做的不是猜对象，而是处理对象。

网页购物是一个很直观的例子。现在你想让 AI 比较几个商品，往往要复制链接，或者截图，再解释你关心价格、尺寸、评价还是售后。理想状态下，你只要选中几个商品，说“帮我看哪个适合小户型客厅”。页面上已经有图片、尺寸、价格、评价，AI 不需要你重新打一遍。

地图也是一样。DeepMind 举了一个例子：指向一张建筑图片，说 “Show me directions”。如果系统已经知道你指的是哪个建筑，后面就不是聊天了，而是路线规划。

图片编辑可能会更明显。Google 同一天还宣布 Gemini in Chrome on Android 和 auto browse，里面提到用户可以在浏览器里直接修改网页图片，比如把房源图改成带现代客厅家具的样子。放到 AI Pointer 的思路里，这类操作会变成：指向图片里的区域，说“这里换成这张沙发”。

语言还在，但不用再扛起全部上下文。

这就是我觉得它值得写的原因。

Google 为什么有机会把这事做大

AI Pointer 不是单独出现的。

同一天，Google 还发布了 Gemini in Chrome with auto browse 和 Googlebook。前者把 Gemini 放进 Android 版 Chrome，支持网页总结、连接 Google 应用、自动处理停车预订和订单修改。后者提出 Magic Pointer，把 Gemini 的上下文建议放到 Googlebook 的光标上。

三件事放在一起看，就不是实验室里展示一个聪明鼠标那么简单了。

Google 想把“指向式 AI”接进浏览器、移动端和笔记本。

这正好踩在 Google 的长处上。它有 Chrome，知道用户正在看什么网页；有 Android，知道移动场景；有 Gmail、Calendar、Keep、Maps，可以把屏幕对象接到真实动作；有 Gemini 处理多模态上下文；再加上 Googlebook 这种硬件入口，指针就不只是网页里的一个功能，而可能变成系统层能力。

很多 AI 公司都能做模型，但不是每家公司都站在用户工作流发生的地方。

这也是 AI Pointer 对 Microsoft、Apple、浏览器厂商、IDE 厂商都有启发的原因。如果 AI 从聊天框走向屏幕上的任意对象，最值钱的位置可能就不是单独的 AI 应用，而是操作系统、浏览器、办公套件、设计工具、开发环境这些原本就承载任务的地方。

谁离用户正在处理的对象更近，谁就更容易成为下一代 AI 入口。

Agent 的起点可能会变

现在很多人谈 Agent，会先想到工具调用、浏览器自动化、多步骤规划。这些都对，但从用户体验看，还有一个更早的问题：任务从哪里开始？

在聊天框里，任务从一句话开始。

在 AI Pointer 里，任务可以从一个对象开始。

用户不一定要先说“请帮我规划一次出行”。他可以指向邮件里的航班信息、地图上的酒店、网页上的活动页面，然后说“整理成行程”。Agent 接到的不是一个空泛命令，而是一组已经绑定上下文的对象。

这会让很多 Agent 任务更容易启动，也更容易出错。

Google 在 Chrome auto browse 的说明里特意提到，涉及购买、发帖等敏感动作时，会要求用户确认。这个细节不能忽略。指向式交互越顺滑，用户越容易把上下文交给 AI；一旦接上真实动作，权限边界就必须非常清楚。

AI 可以读懂你指向的是一张订单，但是否修改订单、是否付款、是否发送邮件，必须有确认。否则，交互越自然，风险越不容易被察觉。

所以 AI Pointer 后面真正难的，不只是识别屏幕上的东西。它还要回答几个更麻烦的问题：AI 看到了什么，用户知不知道；哪些动作可以直接做，哪些必须确认；识别错了怎么撤销；不同应用之间的权限怎么隔离。

这些问题解决不好，它就是一个炫技功能。解决得好，它才可能成为系统级入口。

对做产品和写内容的人有什么启发

我不建议把 AI Pointer 理解成“鼠标加 AI”。那样太窄了。

更准确地说，AI 正在从语言入口扩展到对象入口。

过去我们教别人用 AI，重点是怎么描述需求。以后可能还要教另一件事：怎么组织界面里的对象，让 AI 能看得懂、选得准、动得起来。

这对产品设计影响很大。

如果一个页面全是无法识别的图片、混乱的卡片、没有语义结构的 canvas，AI 很难知道用户指向的到底是什么。反过来，如果页面对象有清晰层级、元数据和可操作状态，AI 就更容易把它们变成动作。

以前我们说 UI 要让人看得懂。现在可能还要加一句：也要让 AI 解析得出。

这会影响网页结构、组件命名、可访问性、表单设计、文档格式，也会影响内容创作。一篇文章、一张图、一个产品页面，如果天然适合被 AI 指向、引用和操作，它的价值会更高。

这件事现在看起来还早，但方向已经露出来了。

Prompt 不会消失，只是不用什么都靠它

我不觉得 AI Pointer 会让 Prompt 消失。

复杂任务还是需要语言。你仍然要告诉 AI 目标、偏好、约束、判断标准。只是 Prompt 不必继续承担所有上下文搬运工作。

更自然的交互大概会是这样：你先指向对象，用一句短话表达意图；AI 读取当前界面的语义上下文，给出动作；如果动作有风险，再向你确认。

这比今天复制一堆材料、写一段长 Prompt、等 AI 猜你到底指什么，要接近真实协作得多。

所以 AI Pointer 的意义不在于鼠标指针变酷了，而在于它提醒我们：AI 交互的下一步，未必是让每个人都成为提示词专家，也可能是让 AI 更像一个站在旁边、和你看着同一块屏幕的协作者。

当 AI 能理解“这个”和“那个”，人机协作才开始有一点像人和人协作。

提示词之后，下一个交互范式也许就是：指给 AI 看。

Gemini on 奇诺分享 | 重在分享