<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Gemma-4 on 奇诺分享 | 重在分享</title>
        <link>https://blog.ccino.org/tags/gemma-4/</link>
        <description>Recent content in Gemma-4 on 奇诺分享 | 重在分享</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 04 Jun 2026 09:30:53 +0800</lastBuildDate><atom:link href="https://blog.ccino.org/tags/gemma-4/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Gemma 4 12B：本地智能体终于从“能跑模型”走向“能跑工作流”</title>
        <link>https://blog.ccino.org/p/gemma-4-12b-local-agent-workflow-2026/</link>
        <pubDate>Thu, 04 Jun 2026 09:30:53 +0800</pubDate>
        
        <guid>https://blog.ccino.org/p/gemma-4-12b-local-agent-workflow-2026/</guid>
        <description>&lt;img src="https://blog.ccino.org/p/gemma-4-12b-local-agent-workflow-2026/imgs/cover.png" alt="Featured image of post Gemma 4 12B：本地智能体终于从“能跑模型”走向“能跑工作流”" /&gt;&lt;p&gt;Google 发 Gemma 4 12B，我第一眼看到的不是“又一个 12B 开放模型”。&lt;/p&gt;
&lt;p&gt;本地模型这件事，已经没那么稀奇了。过去两年，很多人都在 Ollama、LM Studio、llama.cpp、MLX 里跑过各种 7B、14B、32B 模型。能跑起来当然很开心，但跑起来以后，大多数时候还是回到一个聊天框：问一句，答一句；贴一段代码，解释一段；让它写点东西，再复制出来用。&lt;/p&gt;
&lt;p&gt;Gemma 4 12B 这次不太一样的地方，是 Google 很明确地把它放进了“本地 agentic workflows”这个语境。&lt;/p&gt;
&lt;p&gt;按官方介绍，它是一个中等规模、多模态、开放模型，可以在 16GB VRAM 或统一内存设备上本地运行。它支持推理、编码、多模态输入，也可以通过 LiteRT-LM 启动本地 OpenAI-compatible API server。Google Developers Blog 另一篇文章的标题更直接：把 Gemma 4 12B 带到笔记本上，解锁本地智能体工作流。&lt;/p&gt;
&lt;p&gt;我觉得这里的关键词不是 12B，也不是多模态，而是“工作流”。&lt;/p&gt;
&lt;p&gt;过去讨论本地 AI，常问的是：显存够不够？速度怎么样？中文行不行？现在可以多问一句：它能不能接进开发工具、代码库、终端、文件系统和本地数据，变成一个真正能帮你做事的本地 Agent？&lt;/p&gt;
&lt;p&gt;Gemma 4 12B 的意义就在这里。它不太可能替代云端最强模型，但它让“本地模型”往前走了一步：从本地聊天框，走向本地智能体运行时。&lt;/p&gt;
&lt;h2 id=&#34;本地-ai-以前常常停在聊天框&#34;&gt;本地 AI 以前常常停在聊天框
&lt;/h2&gt;&lt;p&gt;以前搭本地模型，目标很朴素：先跑起来。&lt;/p&gt;
&lt;p&gt;装 Ollama，拉一个模型，终端里输入一句话，看到它回复，事情就成功了一半。如果再接进 Open WebUI 或 LM Studio，有一个像样的聊天界面，就更有成就感。&lt;/p&gt;
&lt;p&gt;这当然有用。隐私更好，成本可控，断网也能用。对个人知识库、代码解释、简单写作、本地资料总结来说，本地模型一直有吸引力。&lt;/p&gt;
&lt;p&gt;但它的短板也很明显：很多本地模型最后只是一个“本地 ChatGPT”。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/gemma-4-12b-local-agent-workflow-2026/imgs/body-1.png&#34;
	width=&#34;1536&#34;
	height=&#34;864&#34;
	srcset=&#34;https://blog.ccino.org/p/gemma-4-12b-local-agent-workflow-2026/imgs/body-1_hu_ce6db82be818ac94.png 480w, https://blog.ccino.org/p/gemma-4-12b-local-agent-workflow-2026/imgs/body-1_hu_f345299805403bb7.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;本地 AI 从聊天框走向工作流系统&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;177&#34;
		data-flex-basis=&#34;426px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;你问，它答；你贴一段代码，它解释；你给一个需求，它生成一段建议。它像一个助手，但还不像一个真正参与工作流的执行者。&lt;/p&gt;
&lt;p&gt;进入工作流，需要多几层东西。模型要能被工具稳定调用，工具要有标准接口，上下文要能从代码库、文件、终端或浏览器里进来，结果要能被验证，失败后要能重试或交还给人。&lt;/p&gt;
&lt;p&gt;所以 Gemma 4 12B 这次值得关注，不只是因为它是一个新模型。Google 同时给出了 LiteRT-LM、本地 OpenAI-compatible server、Google AI Edge Gallery、Gemma Skills Repository 这些线索。它们合在一起，指向的不是单个模型，而是一套本地优先的 Agent 工作流。&lt;/p&gt;
&lt;h2 id=&#34;gemma-4-12b-带来的几个变化&#34;&gt;Gemma 4 12B 带来的几个变化
&lt;/h2&gt;&lt;p&gt;按 Google 官方介绍，Gemma 4 12B 是一个 unified、encoder-free 的多模态模型。它介于更小的边缘模型和更大的 26B MoE 模型之间，主打在日常笔记本上运行。&lt;/p&gt;
&lt;p&gt;我会把它的变化拆成四点看。&lt;/p&gt;
&lt;p&gt;第一，它把门槛压到了普通高配电脑能尝试的范围。Google 提到 16GB VRAM 或统一内存设备。这个要求不算低，但也没有高到只属于服务器。一台 16GB 显存的游戏本，或者统一内存足够的 Apple Silicon 设备，都可以开始试。&lt;/p&gt;
&lt;p&gt;第二，它不是纯文本模型。官方提到它支持视觉与音频输入，是 Gemma 4 系列里首个支持原生音频输入的中等规模模型。对本地 Agent 来说，这个点很有想象空间。一个本地工具可以看截图、读图表、处理录音、分析代码，再把结果写回本地文件。&lt;/p&gt;
&lt;p&gt;第三，它被明确放在 coding 和 agentic workflows 场景里。Google DeepMind 的 Gemma 页面把 12B、26B、31B 这一组定位为个人电脑和工作站上的本地智能，用于高级推理、IDE、编码助手和智能体工作流。&lt;/p&gt;
&lt;p&gt;第四，接入路径更标准。Ollama 可以直接跑 &lt;code&gt;gemma4:12b&lt;/code&gt;，LiteRT-LM 可以启动 OpenAI-compatible server，官方还提到 Continue、Aider、OpenCode、Hermes 等工具可以指向本地 endpoint。&lt;/p&gt;
&lt;p&gt;这就把问题从“我能不能和它聊天”，变成了“我的开发工具能不能把它当成本地模型服务来用”。&lt;/p&gt;
&lt;h2 id=&#34;先降温它不是云端大模型的替代品&#34;&gt;先降温：它不是云端大模型的替代品
&lt;/h2&gt;&lt;p&gt;这里要先说清楚，Gemma 4 12B 很有意思，但它不是 Claude、Gemini Pro、GPT 这类云端 frontier model 的替代品。&lt;/p&gt;
&lt;p&gt;12B 仍然是 12B。它适合本地代码解释、小范围重构、日志分析、文档整理、轻量 Agent 流程、隐私敏感资料处理。它不适合把一个大型项目完整交给它自动规划、开发、测试、上线，也不适合需要极高推理稳定性的任务。&lt;/p&gt;
&lt;p&gt;更现实的用法是分层。&lt;/p&gt;
&lt;p&gt;日常小任务、本地资料、低风险代码分析，可以交给 Gemma 4 12B 这类本地模型。复杂架构决策、关键生产代码、需要强推理和高可靠性的任务，仍然交给云端强模型。&lt;/p&gt;
&lt;p&gt;本地模型的价值，不是“替代一切”。它更像是把大量原本不值得调用云端模型的任务吃下来。它离你更近，不按 token 计费，也更适合放进本地工作流里反复调用。&lt;/p&gt;
&lt;h2 id=&#34;路线一先用-ollama-跑起来&#34;&gt;路线一：先用 Ollama 跑起来
&lt;/h2&gt;&lt;p&gt;如果只是想先试试 Gemma 4 12B，Ollama 是最省事的路线。&lt;/p&gt;
&lt;h3 id=&#34;1-安装-ollama&#34;&gt;1. 安装 Ollama
&lt;/h3&gt;&lt;p&gt;macOS / Linux 可以用官方安装脚本：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl -fsSL https://ollama.com/install.sh &lt;span class=&#34;p&#34;&gt;|&lt;/span&gt; sh
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Windows 直接去 Ollama 官网下载安装包：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;https://ollama.com/download
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;安装完成后检查版本：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama --version
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;2-拉取并运行-gemma-4-12b&#34;&gt;2. 拉取并运行 Gemma 4 12B
&lt;/h3&gt;&lt;p&gt;12B 版本可以这样运行：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4:12b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果你只想用默认版本，也可以：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ollama 页面列出的常用标签包括：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;gemma4:latest
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;gemma4:e2b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;gemma4:e4b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;gemma4:12b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;gemma4:26b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;gemma4:31b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;gemma4:31b-cloud
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;其中 &lt;code&gt;gemma4:12b&lt;/code&gt; 页面标注大小约 7.6GB，上下文为 128K，支持 Text/Image。实际体验还要看你的显存、内存、系统和模型标签。别只看“能跑”，代码工作流里上下文长度、响应速度和稳定性都很关键。&lt;/p&gt;
&lt;h3 id=&#34;3-启动-ollama-服务并测试-api&#34;&gt;3. 启动 Ollama 服务并测试 API
&lt;/h3&gt;&lt;p&gt;Ollama 安装后通常会自动运行本地服务。如果需要手动启动：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;默认服务地址是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;http://localhost:11434
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;可以用 curl 测一下本地 API：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl http://localhost:11434/api/chat &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -d &lt;span class=&#34;s1&#34;&gt;&amp;#39;{
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;    &amp;#34;model&amp;#34;: &amp;#34;gemma4:12b&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;    &amp;#34;messages&amp;#34;: [
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;      {&amp;#34;role&amp;#34;: &amp;#34;user&amp;#34;, &amp;#34;content&amp;#34;: &amp;#34;用一句话解释什么是本地智能体工作流&amp;#34;}
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;    ]
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;  }&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果能看到返回，说明模型服务已经能被本地程序调用。&lt;/p&gt;
&lt;h3 id=&#34;4-需要时设置上下文长度&#34;&gt;4. 需要时设置上下文长度
&lt;/h3&gt;&lt;p&gt;做代码任务时，上下文窗口会影响体验。Aider 文档里提到可以通过环境变量启动 Ollama：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;OLLAMA_CONTEXT_LENGTH&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;8192&lt;/span&gt; ollama serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Windows PowerShell 当前会话可以这样写：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;$env:OLLAMA_CONTEXT_LENGTH&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;8192&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;n&#34;&gt;ollama&lt;/span&gt; &lt;span class=&#34;n&#34;&gt;serve&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果你的机器内存比较紧，不要一上来就把上下文拉得很大。上下文越长，prefill 越慢，内存压力也越高。先从 8K 或 16K 这种比较保守的设置试起，通常更稳。&lt;/p&gt;
&lt;h2 id=&#34;路线二把-gemma-4-12b-接进-aider&#34;&gt;路线二：把 Gemma 4 12B 接进 Aider
&lt;/h2&gt;&lt;p&gt;Aider 是一个不错的测试场景。它不是单纯聊天，而是能读取项目文件、提出修改、生成 diff。你可以很快感受到本地模型到底能不能参与代码工作流。&lt;/p&gt;
&lt;h3 id=&#34;1-安装-aider&#34;&gt;1. 安装 Aider
&lt;/h3&gt;&lt;p&gt;Aider 官方推荐的安装方式：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python -m pip install aider-install
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;aider-install
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;然后进入你的项目目录：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;cd&lt;/span&gt; /to/your/project
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;2-设置-ollama-地址&#34;&gt;2. 设置 Ollama 地址
&lt;/h3&gt;&lt;p&gt;macOS / Linux：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;OLLAMA_API_BASE&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;http://127.0.0.1:11434
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Windows CMD：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bat&#34; data-lang=&#34;bat&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;setx OLLAMA_API_BASE http://127.0.0.1:11434
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Windows PowerShell 当前会话：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-powershell&#34; data-lang=&#34;powershell&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;$env:OLLAMA_API_BASE&lt;/span&gt;&lt;span class=&#34;p&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;http://127.0.0.1:11434&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h3 id=&#34;3-启动-aider-使用-gemma-4-12b&#34;&gt;3. 启动 Aider 使用 Gemma 4 12B
&lt;/h3&gt;&lt;p&gt;先确保 Ollama 已经有模型：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama pull gemma4:12b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;然后启动 Aider：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;aider --model ollama_chat/gemma4:12b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Aider 文档建议 Ollama 聊天模型使用 &lt;code&gt;ollama_chat/&amp;lt;model&amp;gt;&lt;/code&gt; 这种形式。进入以后，不要一上来就让它改一堆文件。可以先给一个只读任务：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;阅读这个项目的 README，告诉我项目入口、主要依赖和本地启动方式，不要修改文件。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;确认它能正确读项目，再尝试小改动：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;帮我给 README 增加一段本地开发注意事项。先说明你会改哪个文件，等我确认后再改。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;本地模型做代码任务时，最好先让它读、解释、列计划，再让它动手。这个节奏比直接“帮我改完”慢一点，但翻车少很多。&lt;/p&gt;
&lt;h2 id=&#34;路线三用-litert-lm-跑-openai-compatible-server&#34;&gt;路线三：用 LiteRT-LM 跑 OpenAI-compatible server
&lt;/h2&gt;&lt;p&gt;Ollama 适合快速上手，LiteRT-LM 更接近 Google 这次官方强调的本地 agentic workflow 路线。&lt;/p&gt;
&lt;p&gt;Google Developers Blog 里给出的核心命令是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;REPO&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;litert-community/gemma-4-12B-it-litert-lm&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;MODEL_FILE&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;gemma-4-12B-it.litertlm&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nv&#34;&gt;MODEL_NAME&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;gemma4-12b&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;litert-lm import --from-huggingface-repo &lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;nv&#34;&gt;$REPO&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;nv&#34;&gt;$MODEL_FILE&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt; &lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;&lt;span class=&#34;nv&#34;&gt;$MODEL_NAME&lt;/span&gt;&lt;span class=&#34;s2&#34;&gt;&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;litert-lm serve
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;文章里的示例服务地址是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;http://localhost:9379/v1/chat/completions
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;可以用 curl 验证：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;8
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;curl -s http://localhost:9379/v1/chat/completions &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -H &lt;span class=&#34;s2&#34;&gt;&amp;#34;Content-Type: application/json&amp;#34;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  -d &lt;span class=&#34;s1&#34;&gt;&amp;#39;{
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;    &amp;#34;model&amp;#34;: &amp;#34;gemma4-12b,gpu&amp;#34;,
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;    &amp;#34;messages&amp;#34;: [
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;      {&amp;#34;role&amp;#34;: &amp;#34;user&amp;#34;, &amp;#34;content&amp;#34;: &amp;#34;Hello!&amp;#34;}
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;    ]
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;s1&#34;&gt;  }&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这里有个小坑要提前说。写这篇文章时，我只能从 Google Developers Blog 找到 &lt;code&gt;import&lt;/code&gt;、&lt;code&gt;serve&lt;/code&gt; 和 curl 示例，但 LiteRT-LM CLI 文档页本身只明确写了支持 &lt;code&gt;uvx&lt;/code&gt;、&lt;code&gt;uv&lt;/code&gt;、&lt;code&gt;pip&lt;/code&gt; 安装，没有在可抓取内容里给出完整安装命令。所以你真要部署，最好打开 LiteRT-LM 官方安装说明或项目仓库，确认包名、Python 版本和平台要求后再装。&lt;/p&gt;
&lt;p&gt;一旦 &lt;code&gt;litert-lm serve&lt;/code&gt; 跑起来，它的意义就很大。很多工具并不关心背后是云端 OpenAI、Ollama，还是本地 LiteRT-LM。只要它提供 OpenAI-compatible endpoint，你就可以把 Aider、Continue、OpenCode、Hermes 这类工具指向本地服务。&lt;/p&gt;
&lt;p&gt;这一步，才是“本地模型”变成“本地 Agent runtime”的关键。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/gemma-4-12b-local-agent-workflow-2026/imgs/body-2.png&#34;
	width=&#34;1536&#34;
	height=&#34;864&#34;
	srcset=&#34;https://blog.ccino.org/p/gemma-4-12b-local-agent-workflow-2026/imgs/body-2_hu_1c3d54f4e464f283.png 480w, https://blog.ccino.org/p/gemma-4-12b-local-agent-workflow-2026/imgs/body-2_hu_4b52617b5ea02929.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;Gemma 4 12B 本地 API 接入代码工具工作流&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;177&#34;
		data-flex-basis=&#34;426px&#34;
	
&gt;&lt;/p&gt;
&lt;h2 id=&#34;接入-openai-compatible-工具时怎么填&#34;&gt;接入 OpenAI-compatible 工具时怎么填
&lt;/h2&gt;&lt;p&gt;不同工具的配置文件不一样，但核心信息通常就几个：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;base_url: http://localhost:9379/v1
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;api_key: 随便填一个非空字符串，或按工具要求填写
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;model: gemma4-12b,gpu
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;provider: openai-compatible / openai / custom
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果走 Ollama，通常是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;base_url: http://localhost:11434
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;model: gemma4:12b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果工具要求 OpenAI 风格 endpoint，而你用 LiteRT-LM，就优先试：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;http://localhost:9379/v1
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;如果工具原生支持 Ollama，那就优先用 Ollama provider，少一层兼容转换。&lt;/p&gt;
&lt;p&gt;这里不要死记配置。更稳的做法是先用 curl 确认本地服务可用，再去工具里填 endpoint。否则你很难判断问题出在模型、服务、端口、模型名，还是工具配置。&lt;/p&gt;
&lt;h2 id=&#34;我建议这样开始用本地-agent&#34;&gt;我建议这样开始用本地 Agent
&lt;/h2&gt;&lt;p&gt;如果你想用 Gemma 4 12B 做本地智能体，不建议第一天就让它自动改整个项目。&lt;/p&gt;
&lt;p&gt;比较稳的起步方式是这样：先只让它读项目，让它总结目录结构、技术栈、入口文件、测试命令和潜在风险。这个阶段不要修改文件。&lt;/p&gt;
&lt;p&gt;然后让它做小范围解释，比如解释某个模块为什么这样设计，某个报错可能来自哪里，某段代码有哪些边界条件。&lt;/p&gt;
&lt;p&gt;再下一步，让它生成计划。要求它列出准备修改的文件、改动范围、不改哪些东西、如何验证。&lt;/p&gt;
&lt;p&gt;最后才让它改一个低风险文件，比如 README、小工具函数、测试用例、配置注释。改完以后接入验证。能跑测试就跑测试，能跑 lint 就跑 lint，前端功能最好打开页面检查。没有验证，就不要让它说“完成”。&lt;/p&gt;
&lt;p&gt;这个流程比一句话让 AI 改代码慢一点，但更适合本地模型。12B 模型不是不能做事，只是更需要清楚边界和短反馈。&lt;/p&gt;
&lt;p&gt;本地 Agent 真正好用，不是因为模型突然无所不能，而是你给它安排了更适合它的任务形状。&lt;/p&gt;
&lt;h2 id=&#34;windowsmacos-和显存注意事项&#34;&gt;Windows、macOS 和显存注意事项
&lt;/h2&gt;&lt;p&gt;Gemma 4 12B 官方说可以在 16GB VRAM 或统一内存设备上运行，但这不等于所有 16GB 机器都能流畅跑所有场景。&lt;/p&gt;
&lt;p&gt;如果你是 Windows + NVIDIA GPU，优先试 Ollama 或 LM Studio。它们对入门最友好，遇到问题也更容易排查。&lt;/p&gt;
&lt;p&gt;如果你是 Apple Silicon，统一内存越大越好。Google AI Edge Gallery 和 LiteRT-LM 对 macOS 的本地体验更值得关注。Ollama 的 MLX 标签也可以试，但不同标签支持的输入模态和性能可能有差异。&lt;/p&gt;
&lt;p&gt;如果你只有 16GB 系统内存，没有独立 GPU，就不要对 12B 的速度抱太高期待。可以先试 E2B/E4B，或者选择更小、更偏边缘的模型。&lt;/p&gt;
&lt;p&gt;如果你要做代码 Agent，显存只是一个条件。磁盘、CPU、内存、上下文长度、工具调用频率，都会影响体验。尤其是长上下文代码任务，本地模型慢不是 bug，而是成本从云端账单转移到了你的机器时间上。&lt;/p&gt;
&lt;h2 id=&#34;什么时候用本地什么时候用云端&#34;&gt;什么时候用本地，什么时候用云端
&lt;/h2&gt;&lt;p&gt;Gemma 4 12B 更适合放在“第一层智能”里。比如本地代码库解释、README 和脚本修改、日志分析、隐私敏感资料总结、低风险测试生成、本地数据分析脚本草稿，以及一些会反复调用的小型 Agent 工作流。&lt;/p&gt;
&lt;p&gt;它不太适合大型架构重构、高风险生产代码自动修改、复杂多文件长期自主开发，或者需要极强推理稳定性的设计决策。涉及外部副作用和安全审查的任务，也不要轻易交给本地模型自动做。&lt;/p&gt;
&lt;p&gt;这样分工，本地 AI 才不会变成云端 AI 的低配替代。它会变成一个新的工作流层：便宜、快速、隐私友好，负责那些离你最近、最频繁、最适合本地处理的任务。&lt;/p&gt;
&lt;h2 id=&#34;本地-ai-的下一站是本地工作系统&#34;&gt;本地 AI 的下一站，是本地工作系统
&lt;/h2&gt;&lt;p&gt;Gemma 4 12B 这次最有价值的地方，不是让我们多了一个可以下载的模型。&lt;/p&gt;
&lt;p&gt;它让本地 AI 的讨论从“模型能不能跑”，转向“工作流能不能跑”。&lt;/p&gt;
&lt;p&gt;当你能在笔记本上启动一个 OpenAI-compatible server，把 Aider、Continue、OpenCode、Hermes 之类工具接进来，再让模型读本地文件、生成代码、跑脚本、处理图片或音频，本地 AI 就不再只是一个聊天窗口。&lt;/p&gt;
&lt;p&gt;它开始像一个本地工作系统。&lt;/p&gt;
&lt;p&gt;当然，这个系统还不会完美。12B 模型有能力边界，本地推理有性能限制，多模态和工具调用也需要更成熟的 harness。但方向已经很清楚：未来的个人电脑，不只是运行应用，也会运行自己的本地智能体。&lt;/p&gt;
&lt;p&gt;云端模型负责最难的问题，本地模型负责离你最近、最频繁、最隐私的那部分工作。&lt;/p&gt;
&lt;p&gt;这才是 Gemma 4 12B 真正值得关注的地方。&lt;/p&gt;
&lt;p&gt;不是因为它让本地 AI 第一次能跑。&lt;/p&gt;
&lt;p&gt;而是因为它让本地 AI 开始更像一个可以接入工具、执行任务、参与工作流的 Agent runtime。&lt;/p&gt;
&lt;h2 id=&#34;参考来源&#34;&gt;参考来源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google Blog: Introducing Gemma 4 12B&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developers.googleblog.com/gemma-4-12b-the-developer-guide/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google Developers Blog: Gemma 4 12B Developer Guide&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developers.googleblog.com/bringing-gemma-4-12b-to-your-laptop-unlocking-local-agentic-workflows-with-google-ai-edge/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google Developers Blog: Bringing Gemma 4 12B to your Laptop&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://deepmind.google/models/gemma/gemma-4/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google DeepMind: Gemma 4&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://ollama.com/library/gemma4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Ollama: gemma4&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://aider.chat/docs/llms/ollama.html&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Aider Docs: Ollama&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://developers.google.com/edge/litert-lm/cli&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;LiteRT-LM CLI&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
