<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Gemini on 奇诺分享 | 重在分享</title>
        <link>https://blog.ccino.org/tags/gemini/</link>
        <description>Recent content in Gemini on 奇诺分享 | 重在分享</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Wed, 13 May 2026 09:30:00 +0800</lastBuildDate><atom:link href="https://blog.ccino.org/tags/gemini/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>AI Pointer：提示词之后，下一个交互范式可能是「指给 AI 看」</title>
        <link>https://blog.ccino.org/p/ai-pointer-interaction-paradigm-2026/</link>
        <pubDate>Wed, 13 May 2026 09:30:00 +0800</pubDate>
        
        <guid>https://blog.ccino.org/p/ai-pointer-interaction-paradigm-2026/</guid>
        <description>&lt;img src="https://blog.ccino.org/p/ai-pointer-interaction-paradigm-2026/imgs/cover.png" alt="Featured image of post AI Pointer：提示词之后，下一个交互范式可能是「指给 AI 看」" /&gt;&lt;p&gt;DeepMind 这次发了一篇关于 AI Pointer 的文章，表面上是在讲鼠标指针要怎么加 AI，但我读完后反而觉得，它真正戳中的是一个很老的问题：我们和 AI 打交道时，为什么总要先把眼前的东西翻译成一段话？&lt;/p&gt;
&lt;p&gt;比如你正在看网页，想让 AI 比较三件商品；或者在 PDF 里看到一段话，想顺手改成邮件里的三条要点；再或者看到地图、图片、视频暂停帧里的某个地方，想知道它是什么、怎么去、能不能预订。&lt;/p&gt;
&lt;p&gt;今天的流程通常很笨。截图、复制、粘贴、解释背景，再补一句“我说的是右下角那个”。很多时候，任务本身没那么复杂，复杂的是你要先把屏幕上的上下文搬到聊天框里。&lt;/p&gt;
&lt;p&gt;人和人协作不是这样的。我们会指着屏幕说：“这个帮我改一下”“那段总结一下”“这里是什么意思”。对方能理解，不是因为这句话写得多完整，而是因为你们看着同一块屏幕。&lt;/p&gt;
&lt;p&gt;DeepMind 在 2026 年 5 月 12 日发布的 &lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/blog/ai-pointer/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;AI Pointer 文章&lt;/a&gt; 讲的就是这个方向：让鼠标指针不仅知道你停在哪个坐标上，还能理解你指向的是什么，以及它和当前任务有什么关系。&lt;/p&gt;
&lt;p&gt;如果这条路走通，Prompt 当然还会存在，但它可能不会再承担那么多本不该由语言承担的工作。&lt;/p&gt;
&lt;h2 id=&#34;我们不是缺提示词技巧是缺上下文入口&#34;&gt;我们不是缺提示词技巧，是缺上下文入口
&lt;/h2&gt;&lt;p&gt;过去一年，很多人都在学怎么写 Prompt。目标要清楚，背景要完整，约束要明确，输出格式要提前规定。这些技巧有用，我自己也经常这么做。&lt;/p&gt;
&lt;p&gt;但越用越会发现，这套方法有一个很大的别扭之处：屏幕上已经有的东西，你还要再说一遍。&lt;/p&gt;
&lt;p&gt;网页里已经有商品卡片，你还要写“请比较这三个商品的价格、尺寸和评价”。PDF 里已经有表格，你还要说“请把第二页右下角那个表格转成图”。图片里已经有客厅和沙发，你还要描述“把这张沙发放到那张客厅图里”。&lt;/p&gt;
&lt;p&gt;这不是用户懒，也不是用户不会写 Prompt，而是交互方式让用户做了太多上下文搬运。&lt;/p&gt;
&lt;p&gt;DeepMind 的说法很直接：典型 AI 工具活在自己的窗口里，用户要把自己的世界拖进去；他们想做相反的事，让 AI 出现在用户本来工作的地方。&lt;/p&gt;
&lt;p&gt;我觉得这句话比“AI 鼠标指针”本身更重要。&lt;/p&gt;
&lt;p&gt;因为它把 AI 产品从聊天框里往外推了一步。AI 不应该只在一个独立窗口里等你输入，它应该能出现在网页、文档、图片、表格、地图这些任务实际发生的地方。&lt;/p&gt;
&lt;p&gt;聊天框时代，我们努力把需求说清楚。AI Pointer 想做的，是先把对象指清楚。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/ai-pointer-interaction-paradigm-2026/imgs/context-on-screen.png&#34;
	width=&#34;1376&#34;
	height=&#34;768&#34;
	srcset=&#34;https://blog.ccino.org/p/ai-pointer-interaction-paradigm-2026/imgs/context-on-screen_hu_1618c62fbf3a567.png 480w, https://blog.ccino.org/p/ai-pointer-interaction-paradigm-2026/imgs/context-on-screen_hu_329919c42e8cc9d8.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;旧方式是把上下文搬进聊天框，新方式是直接指向屏幕对象&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;h2 id=&#34;这个和那个为什么重要&#34;&gt;「这个」和「那个」为什么重要
&lt;/h2&gt;&lt;p&gt;DeepMind 在文章里提到四个原则：保持工作流、边指边说、理解 this 和 that、把像素变成可操作对象。&lt;/p&gt;
&lt;p&gt;这些词听起来有点产品文档味，但背后的意思并不复杂。&lt;/p&gt;
&lt;p&gt;用户在写邮件时，不应该为了让 AI 总结一段 PDF，又跳进另一个聊天窗口重新描述一遍。用户看着一张图时，也不应该为了改其中一块区域，先写一段很长的文字说明。更自然的方式是指过去，然后说一句短话。&lt;/p&gt;
&lt;p&gt;“把这段改短。”&lt;/p&gt;
&lt;p&gt;“把这个表转成图。”&lt;/p&gt;
&lt;p&gt;“这个地方怎么去？”&lt;/p&gt;
&lt;p&gt;“把那张沙发放到这里。”&lt;/p&gt;
&lt;p&gt;这些话如果单独拿出来看，几乎没有信息量。但在真实场景里，它们很清楚，因为“这个”和“那个”依赖的不是语言本身，而是共同上下文。&lt;/p&gt;
&lt;p&gt;电脑过去只知道鼠标在哪个坐标。AI 加进来之后，它有机会知道那个坐标附近是一段日期、一家餐厅、一块代码、一张商品图，还是视频暂停画面里的某个建筑。&lt;/p&gt;
&lt;p&gt;对象一旦被识别出来，动作就接得上了。日期可以变成日程，餐厅可以变成路线或预订，商品可以进入比较表，图片区域可以被编辑，代码块可以被解释或重构。&lt;/p&gt;
&lt;p&gt;所以 AI Pointer 不是简单给右键菜单加几个 AI 按钮。它更像是在尝试把屏幕上的东西重新语义化，让 AI 能看懂用户正在处理的对象。&lt;/p&gt;
&lt;p&gt;这一步做成之后，用户就不必每次都先把上下文从界面里挖出来，再塞给 AI。&lt;/p&gt;
&lt;h2 id=&#34;从听你描述到看你指向&#34;&gt;从“听你描述”到“看你指向”
&lt;/h2&gt;&lt;p&gt;Prompt 是把意图压缩成语言。&lt;/p&gt;
&lt;p&gt;Pointer 是把意图绑定到对象。&lt;/p&gt;
&lt;p&gt;两者差别很大。&lt;/p&gt;
&lt;p&gt;你说“帮我总结一下这份报告”，AI 还要继续问：哪份报告？哪一部分？给谁看？要多长？用什么语气？&lt;/p&gt;
&lt;p&gt;但如果你在报告里选中一段，直接说“改成给老板看的版本”，范围已经确定了一半。AI 要做的不是猜对象，而是处理对象。&lt;/p&gt;
&lt;p&gt;网页购物是一个很直观的例子。现在你想让 AI 比较几个商品，往往要复制链接，或者截图，再解释你关心价格、尺寸、评价还是售后。理想状态下，你只要选中几个商品，说“帮我看哪个适合小户型客厅”。页面上已经有图片、尺寸、价格、评价，AI 不需要你重新打一遍。&lt;/p&gt;
&lt;p&gt;地图也是一样。DeepMind 举了一个例子：指向一张建筑图片，说 “Show me directions”。如果系统已经知道你指的是哪个建筑，后面就不是聊天了，而是路线规划。&lt;/p&gt;
&lt;p&gt;图片编辑可能会更明显。Google 同一天还宣布 Gemini in Chrome on Android 和 auto browse，里面提到用户可以在浏览器里直接修改网页图片，比如把房源图改成带现代客厅家具的样子。放到 AI Pointer 的思路里，这类操作会变成：指向图片里的区域，说“这里换成这张沙发”。&lt;/p&gt;
&lt;p&gt;语言还在，但不用再扛起全部上下文。&lt;/p&gt;
&lt;p&gt;这就是我觉得它值得写的原因。&lt;/p&gt;
&lt;h2 id=&#34;google-为什么有机会把这事做大&#34;&gt;Google 为什么有机会把这事做大
&lt;/h2&gt;&lt;p&gt;AI Pointer 不是单独出现的。&lt;/p&gt;
&lt;p&gt;同一天，Google 还发布了 &lt;a class=&#34;link&#34; href=&#34;https://blog.google/products-and-platforms/products/chrome/bringing-chrome-ai-to-android/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemini in Chrome with auto browse&lt;/a&gt; 和 &lt;a class=&#34;link&#34; href=&#34;https://blog.google/products-and-platforms/platforms/android/meet-googlebook/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Googlebook&lt;/a&gt;。前者把 Gemini 放进 Android 版 Chrome，支持网页总结、连接 Google 应用、自动处理停车预订和订单修改。后者提出 Magic Pointer，把 Gemini 的上下文建议放到 Googlebook 的光标上。&lt;/p&gt;
&lt;p&gt;三件事放在一起看，就不是实验室里展示一个聪明鼠标那么简单了。&lt;/p&gt;
&lt;p&gt;Google 想把“指向式 AI”接进浏览器、移动端和笔记本。&lt;/p&gt;
&lt;p&gt;这正好踩在 Google 的长处上。它有 Chrome，知道用户正在看什么网页；有 Android，知道移动场景；有 Gmail、Calendar、Keep、Maps，可以把屏幕对象接到真实动作；有 Gemini 处理多模态上下文；再加上 Googlebook 这种硬件入口，指针就不只是网页里的一个功能，而可能变成系统层能力。&lt;/p&gt;
&lt;p&gt;很多 AI 公司都能做模型，但不是每家公司都站在用户工作流发生的地方。&lt;/p&gt;
&lt;p&gt;这也是 AI Pointer 对 Microsoft、Apple、浏览器厂商、IDE 厂商都有启发的原因。如果 AI 从聊天框走向屏幕上的任意对象，最值钱的位置可能就不是单独的 AI 应用，而是操作系统、浏览器、办公套件、设计工具、开发环境这些原本就承载任务的地方。&lt;/p&gt;
&lt;p&gt;谁离用户正在处理的对象更近，谁就更容易成为下一代 AI 入口。&lt;/p&gt;
&lt;h2 id=&#34;agent-的起点可能会变&#34;&gt;Agent 的起点可能会变
&lt;/h2&gt;&lt;p&gt;现在很多人谈 Agent，会先想到工具调用、浏览器自动化、多步骤规划。这些都对，但从用户体验看，还有一个更早的问题：任务从哪里开始？&lt;/p&gt;
&lt;p&gt;在聊天框里，任务从一句话开始。&lt;/p&gt;
&lt;p&gt;在 AI Pointer 里，任务可以从一个对象开始。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/ai-pointer-interaction-paradigm-2026/imgs/agent-starts-from-objects.png&#34;
	width=&#34;1376&#34;
	height=&#34;768&#34;
	srcset=&#34;https://blog.ccino.org/p/ai-pointer-interaction-paradigm-2026/imgs/agent-starts-from-objects_hu_8d3c0f38f28cdb95.png 480w, https://blog.ccino.org/p/ai-pointer-interaction-paradigm-2026/imgs/agent-starts-from-objects_hu_881e719a2136d447.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;Agent 的任务从屏幕对象开始，而不是从一句抽象命令开始&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;用户不一定要先说“请帮我规划一次出行”。他可以指向邮件里的航班信息、地图上的酒店、网页上的活动页面，然后说“整理成行程”。Agent 接到的不是一个空泛命令，而是一组已经绑定上下文的对象。&lt;/p&gt;
&lt;p&gt;这会让很多 Agent 任务更容易启动，也更容易出错。&lt;/p&gt;
&lt;p&gt;Google 在 Chrome auto browse 的说明里特意提到，涉及购买、发帖等敏感动作时，会要求用户确认。这个细节不能忽略。指向式交互越顺滑，用户越容易把上下文交给 AI；一旦接上真实动作，权限边界就必须非常清楚。&lt;/p&gt;
&lt;p&gt;AI 可以读懂你指向的是一张订单，但是否修改订单、是否付款、是否发送邮件，必须有确认。否则，交互越自然，风险越不容易被察觉。&lt;/p&gt;
&lt;p&gt;所以 AI Pointer 后面真正难的，不只是识别屏幕上的东西。它还要回答几个更麻烦的问题：AI 看到了什么，用户知不知道；哪些动作可以直接做，哪些必须确认；识别错了怎么撤销；不同应用之间的权限怎么隔离。&lt;/p&gt;
&lt;p&gt;这些问题解决不好，它就是一个炫技功能。解决得好，它才可能成为系统级入口。&lt;/p&gt;
&lt;h2 id=&#34;对做产品和写内容的人有什么启发&#34;&gt;对做产品和写内容的人有什么启发
&lt;/h2&gt;&lt;p&gt;我不建议把 AI Pointer 理解成“鼠标加 AI”。那样太窄了。&lt;/p&gt;
&lt;p&gt;更准确地说，AI 正在从语言入口扩展到对象入口。&lt;/p&gt;
&lt;p&gt;过去我们教别人用 AI，重点是怎么描述需求。以后可能还要教另一件事：怎么组织界面里的对象，让 AI 能看得懂、选得准、动得起来。&lt;/p&gt;
&lt;p&gt;这对产品设计影响很大。&lt;/p&gt;
&lt;p&gt;如果一个页面全是无法识别的图片、混乱的卡片、没有语义结构的 canvas，AI 很难知道用户指向的到底是什么。反过来，如果页面对象有清晰层级、元数据和可操作状态，AI 就更容易把它们变成动作。&lt;/p&gt;
&lt;p&gt;以前我们说 UI 要让人看得懂。现在可能还要加一句：也要让 AI 解析得出。&lt;/p&gt;
&lt;p&gt;这会影响网页结构、组件命名、可访问性、表单设计、文档格式，也会影响内容创作。一篇文章、一张图、一个产品页面，如果天然适合被 AI 指向、引用和操作，它的价值会更高。&lt;/p&gt;
&lt;p&gt;这件事现在看起来还早，但方向已经露出来了。&lt;/p&gt;
&lt;h2 id=&#34;prompt-不会消失只是不用什么都靠它&#34;&gt;Prompt 不会消失，只是不用什么都靠它
&lt;/h2&gt;&lt;p&gt;我不觉得 AI Pointer 会让 Prompt 消失。&lt;/p&gt;
&lt;p&gt;复杂任务还是需要语言。你仍然要告诉 AI 目标、偏好、约束、判断标准。只是 Prompt 不必继续承担所有上下文搬运工作。&lt;/p&gt;
&lt;p&gt;更自然的交互大概会是这样：你先指向对象，用一句短话表达意图；AI 读取当前界面的语义上下文，给出动作；如果动作有风险，再向你确认。&lt;/p&gt;
&lt;p&gt;这比今天复制一堆材料、写一段长 Prompt、等 AI 猜你到底指什么，要接近真实协作得多。&lt;/p&gt;
&lt;p&gt;所以 AI Pointer 的意义不在于鼠标指针变酷了，而在于它提醒我们：AI 交互的下一步，未必是让每个人都成为提示词专家，也可能是让 AI 更像一个站在旁边、和你看着同一块屏幕的协作者。&lt;/p&gt;
&lt;p&gt;当 AI 能理解“这个”和“那个”，人机协作才开始有一点像人和人协作。&lt;/p&gt;
&lt;p&gt;提示词之后，下一个交互范式也许就是：指给 AI 看。&lt;/p&gt;
&lt;h2 id=&#34;参考来源&#34;&gt;参考来源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/blog/ai-pointer/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google DeepMind：Reimagining the mouse pointer for the AI era&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blog.google/products-and-platforms/products/chrome/bringing-chrome-ai-to-android/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google：Bringing the best of Gemini in Chrome to Android&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blog.google/products-and-platforms/platforms/android/meet-googlebook/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google：Introducing Googlebook, designed for Gemini Intelligence&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
