<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Gemma on 奇诺分享 | 重在分享</title>
        <link>https://blog.ccino.org/tags/gemma/</link>
        <description>Recent content in Gemma on 奇诺分享 | 重在分享</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Mon, 06 Apr 2026 10:00:00 +0800</lastBuildDate><atom:link href="https://blog.ccino.org/tags/gemma/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Google 开源了一个怪物：Gemma 4 的 26B 版本跑起来只有 4B 的算力开销</title>
        <link>https://blog.ccino.org/p/gemma4-open-source-revolution-2026/</link>
        <pubDate>Mon, 06 Apr 2026 10:00:00 +0800</pubDate>
        
        <guid>https://blog.ccino.org/p/gemma4-open-source-revolution-2026/</guid>
        <description>&lt;img src="https://blog.ccino.org/p/gemma4-open-source-revolution-2026/imgs/cover.png" alt="Featured image of post Google 开源了一个怪物：Gemma 4 的 26B 版本跑起来只有 4B 的算力开销" /&gt;&lt;blockquote&gt;
&lt;p&gt;在本地 AI 排行榜上，Gemma 4 把几乎所有对手都打下去了——只有 Claude Opus 4.6 和 GPT-5.2 还站着。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;p&gt;2026 年 4 月 2 日，Google DeepMind 发布了 Gemma 4。&lt;/p&gt;
&lt;p&gt;这次不是悄悄发布，而是一出手就拿出了四款模型，从手机能跑的 E2B 到服务器级别的 31B Dense，全系 Apache 2.0 开源，商用无限制。&lt;/p&gt;
&lt;p&gt;结果在 Reddit LocalLLaMA 社区，一个帖子获得了 821 个赞：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;&amp;ldquo;Gemma 4 just casually destroyed every model on our leaderboard except Opus 4.6 and GPT-5.2.&amp;rdquo;&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;&amp;ldquo;随手就把排行榜上的模型全干掉了&amp;rdquo;——这句话在社区里传了好几天。&lt;/p&gt;
&lt;p&gt;发生了什么？&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;一gemma-4-到底有多强&#34;&gt;一、Gemma 4 到底有多强
&lt;/h2&gt;&lt;p&gt;先看数字。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Benchmark&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Gemma 4 &lt;strong&gt;31B&lt;/strong&gt;&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Gemma 4 &lt;strong&gt;26B MoE&lt;/strong&gt;&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Gemma 4 E4B&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Gemma 3 27B（上代）&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;MMLU Pro&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;85.2%&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;82.6%&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;69.4%&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;67.6%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;AIME 2026（数学竞赛）&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;89.2%&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;88.3%&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;42.5%&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;20.8%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;GPQA Diamond（博士级科学）&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;84.3%&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;82.3%&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;58.6%&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;42.4%&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Codeforces ELO（编程竞赛）&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;2150&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;1718&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;940&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;110&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;几个对比让这个数据更有感觉：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;上代 Gemma 3 27B 的 AIME 分数是 20.8%，这代 31B 是 89.2%&lt;/strong&gt;。同量级参数，数学能力直接翻了 4 倍多。&lt;/li&gt;
&lt;li&gt;Codeforces ELO 2150 意味着什么？人类竞赛程序员里，这个分数大约对应前 0.3%。&lt;/li&gt;
&lt;li&gt;在全球开源模型排行榜（Arena AI）上，&lt;strong&gt;31B 版本排名第 3，26B MoE 版本排名第 6&lt;/strong&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;和 Qwen 3.5 比：Gemma 4 31B 在 MMLU Pro 上（85.2% vs ~82%）略有优势，但两者都处于同一档位——&lt;strong&gt;这是真正的顶级开源模型之争&lt;/strong&gt;，不再是&amp;quot;比闭源差一截的替代品&amp;quot;。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;二26b-跑起来只用-4b-的算力这是怎么回事&#34;&gt;二、26B 跑起来只用 4B 的算力——这是怎么回事
&lt;/h2&gt;&lt;p&gt;这是 Gemma 4 最有意思的地方，也是为什么叫&amp;quot;怪物&amp;quot;。&lt;/p&gt;
&lt;p&gt;Gemma 4 26B 的全称是 &lt;strong&gt;Gemma 4 26B A4B&lt;/strong&gt;——A4B 代表 &amp;ldquo;Active 4B&amp;rdquo;，意思是&lt;strong&gt;推理时只激活 3.8B 参数&lt;/strong&gt;，但整体参数量是 26B。&lt;/p&gt;
&lt;p&gt;这用的是 &lt;strong&gt;MoE（Mixture of Experts，混合专家）架构&lt;/strong&gt;：&lt;/p&gt;
&lt;p&gt;模型内部有很多&amp;quot;专家网络&amp;quot;，每次推理时，一个路由机制决定激活哪些专家来处理当前的 token。大多数参数大部分时间都是闲置的。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;实际效果&lt;/strong&gt;：26B MoE 的推理速度和 4B 模型相当，但性能接近 26B 模型。&lt;/p&gt;
&lt;p&gt;换个说法：你用 4B 模型的算力和速度，跑出了 26B 的效果。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;对比维度&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;26B MoE (A4B)&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;标准 26B Dense&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;总参数量&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;26B&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;26B&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;推理激活参数&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;&lt;strong&gt;3.8B&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;26B&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;推理速度&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;≈ 4B 模型&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;慢 6-7 倍&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;性能&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;接近 26B Dense&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;26B Dense&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;VRAM 占用&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;更低&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;更高&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/gemma4-open-source-revolution-2026/imgs/moe-architecture.png&#34;
	width=&#34;2752&#34;
	height=&#34;1536&#34;
	srcset=&#34;https://blog.ccino.org/p/gemma4-open-source-revolution-2026/imgs/moe-architecture_hu_4216d0743364de9a.png 480w, https://blog.ccino.org/p/gemma4-open-source-revolution-2026/imgs/moe-architecture_hu_52176c1470f03944.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;MoE架构对比：Standard Dense 26B 全节点激活 vs MoE 26B 只激活 3.8B，速度差异一目了然&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;这也解释了为什么 26B MoE 在排行榜上是第 6，而不是像直觉预期的那样输给 31B Dense 很多——&lt;strong&gt;它在效率上弥补了一部分性能差距&lt;/strong&gt;。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;三per-layer-embeddings小模型变强的真正秘密&#34;&gt;三、Per-Layer Embeddings：小模型变强的真正秘密
&lt;/h2&gt;&lt;p&gt;MoE 解释了 26B 的效率问题，但 Gemma 4 的 E2B 和 E4B 这两个小模型也明显强过上代，靠的是另一个技术：&lt;strong&gt;Per-Layer Embeddings（PLE，逐层嵌入）&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;理解这个之前，先理解传统方法的问题。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;传统 Transformer 的做法&lt;/strong&gt;：每个 token 进入模型时，做一次 embedding 查找，得到一个向量，然后这个向量流过所有的层，逐层累积上下文信息。问题是：&lt;strong&gt;这个初始向量需要&amp;quot;预装&amp;quot;所有层可能用到的信息&lt;/strong&gt;——负担很重，而且很多信息在特定层其实用不上。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;PLE 的做法&lt;/strong&gt;：加一个额外的嵌入表，为每个 token 在&lt;strong&gt;每一层&lt;/strong&gt;单独提供一个小向量（256 维，而不是主嵌入的 1536 维）。这些向量存在闪存里，推理开始时一次性加载。&lt;/p&gt;
&lt;p&gt;效果是什么？&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;token &amp;ldquo;cat&amp;rdquo; 在第 2 层的含义可以是&amp;quot;我是一个名词&amp;quot;，在第 18 层的含义可以是&amp;quot;我是一种小动物&amp;quot;。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;每一层都能接收&amp;quot;当前这个 token 现在对我意味着什么&amp;quot;的专属信号，而不是只靠第一层的静态向量撑到最后。&lt;/p&gt;
&lt;p&gt;这让小模型能更充分地利用有限参数——&lt;strong&gt;不是堆参数，而是让每个参数都更精准地工作&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/gemma4-open-source-revolution-2026/imgs/per-layer-embeddings.png&#34;
	width=&#34;2752&#34;
	height=&#34;1536&#34;
	srcset=&#34;https://blog.ccino.org/p/gemma4-open-source-revolution-2026/imgs/per-layer-embeddings_hu_7b912c559ccc9aeb.png 480w, https://blog.ccino.org/p/gemma4-open-source-revolution-2026/imgs/per-layer-embeddings_hu_caea593e43b41ba3.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;Per-Layer Embeddings对比：传统方式只有一个入口嵌入，PLE 为每一层单独提供信号，token 在不同层的&amp;#34;意义&amp;#34;各不相同&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;p&gt;这也是为什么 E4B（4B 参数）在 AIME 2026 上能拿到 42.5%，而上代 27B（参数量是它的 7 倍）只有 20.8%。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;四gemma-4-的四个版本该选哪个&#34;&gt;四、Gemma 4 的四个版本：该选哪个
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;实际参数&lt;/th&gt;
          &lt;th&gt;主要特性&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;最低硬件&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;推荐硬件&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;E2B&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;~2B 激活&lt;/td&gt;
          &lt;td&gt;手机/嵌入式，支持视频+音频&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;4GB RAM&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;手机/树莓派&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;E4B&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;~4B 激活&lt;/td&gt;
          &lt;td&gt;轻量多模态 Agent，支持音频&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;8GB RAM&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;M 系列 MacBook&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;26B MoE (A4B)&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;3.8B 激活&lt;/td&gt;
          &lt;td&gt;最佳性价比，速度≈4B&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;16GB VRAM&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;RTX 4090 / 4080&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;31B Dense&lt;/strong&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;31B&lt;/td&gt;
          &lt;td&gt;最高性能，适合微调&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;24GB VRAM&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;H100 / A100&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;大多数开发者的选择&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;笔记本 / M 系列 Mac → &lt;strong&gt;E4B&lt;/strong&gt;：够用，速度快，支持多模态&lt;/li&gt;
&lt;li&gt;有 16-24GB VRAM 的台式机 → &lt;strong&gt;26B MoE&lt;/strong&gt;：性能最强，速度还快&lt;/li&gt;
&lt;li&gt;需要微调的研究场景 → &lt;strong&gt;31B Dense&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id=&#34;五本地跑起来三分钟上手&#34;&gt;五、本地跑起来：三分钟上手
&lt;/h2&gt;&lt;h3 id=&#34;方式一ollama推荐&#34;&gt;方式一：Ollama（推荐）
&lt;/h3&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 运行 Gemma 4 E4B（轻量版，大多数人的起点）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4:4b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 运行 26B MoE（需要 16GB+ VRAM）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4:27b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ollama 自动处理量化和下载，运行后本地起 OpenAI 兼容 API，可以直接接 Cursor、Open-WebUI、任何支持 OpenAI 格式的工具。&lt;/p&gt;
&lt;h3 id=&#34;方式二llamacpp更高性能&#34;&gt;方式二：llama.cpp（更高性能）
&lt;/h3&gt;&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 直接用 Hugging Face GGUF 格式&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;llama-server -hf ggml-org/gemma-4-26b-a4b-it-GGUF:Q4_K_M
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;&lt;code&gt;Q4_K_M&lt;/code&gt; 是 4bit 量化版本，26B MoE 在 Q4 下约需 &lt;strong&gt;10-12GB VRAM&lt;/strong&gt;，一块 RTX 4080 可以流畅运行。&lt;/p&gt;
&lt;h3 id=&#34;方式三lm-studio图形界面&#34;&gt;方式三：LM Studio（图形界面）
&lt;/h3&gt;&lt;p&gt;打开 LM Studio，搜索 &lt;code&gt;gemma-4&lt;/code&gt;，点击下载。模型加载后自动提供本地 API 服务。适合不想碰命令行的用户。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;六和其他模型对比该用-gemma-4-替代什么&#34;&gt;六、和其他模型对比：该用 Gemma 4 替代什么
&lt;/h2&gt;&lt;p&gt;坦诚说明差距：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;维度&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Gemma 4 26B（本地）&lt;/th&gt;
          &lt;th style=&#34;text-align: center&#34;&gt;Claude Sonnet 4.6（云端）&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;代码生成（复杂项目）&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;★★★★☆&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;★★★★★&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;数学推理&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;★★★★★&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;★★★★★&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;指令遵循&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;★★★★☆&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;★★★★★&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;长上下文&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;256K ✅&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;200K ✅&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;多模态（图片/视频）&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;✅ 原生支持&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;✅&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;数据隐私&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;✅ 完全本地&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;❌ 上传云端&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;延迟&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;无网络延迟&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;取决于网络&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;成本&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;电费（趋近于零）&lt;/td&gt;
          &lt;td style=&#34;text-align: center&#34;&gt;按 token 计费&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;真正适合替代 Claude/GPT 的场景&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;本地代码审查&lt;/strong&gt;：速度快、不上传代码、够用&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数学和逻辑推理&lt;/strong&gt;：Gemma 4 的强项，接近顶级闭源模型&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;多模态本地应用&lt;/strong&gt;：截图分析、文档理解，数据不出本机&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;高吞吐批量处理&lt;/strong&gt;：不需要实时响应的任务，本地成本为零&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;仍然建议用 Claude 的场景&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;复杂多步骤工程任务（Claude Code 的 Agent 能力目前仍领先）&lt;/li&gt;
&lt;li&gt;需要工具调用和实时信息的场景&lt;/li&gt;
&lt;li&gt;写作质量要求很高的内容创作&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id=&#34;这件事的意义&#34;&gt;这件事的意义
&lt;/h2&gt;&lt;p&gt;Gemma 4 之所以在社区里引发轰动，不只是因为它跑分高。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;更重要的信号是：开源模型与顶级闭源模型之间的差距，正在以比预期快得多的速度收窄。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;半年前，本地模型还处于&amp;quot;能用但将就&amp;quot;的阶段。现在，Gemma 4 31B 在数学竞赛题上的成绩（AIME 89.2%）已经超过了绝大多数闭源商业模型的公开数据。&lt;/p&gt;
&lt;p&gt;这条线在继续移动。&lt;/p&gt;
&lt;p&gt;对开发者的实际意义：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;本地 AI 工作流&lt;/strong&gt;正在变得可行——不只是代码补全，而是真正的任务自动化&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据隐私敏感场景&lt;/strong&gt;（医疗、法律、企业内部数据）有了更可信赖的本地选项&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;运行成本&lt;/strong&gt;正在接近于零——对高吞吐场景来说，这是量变引发质变&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;Gemma 4 只是一个节点。它证明了 Google 在开源模型上认真了——Apache 2.0 授权、商用无限制，这是一个明确的市场信号。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id=&#34;快速上手清单&#34;&gt;快速上手清单
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;input disabled=&#34;&#34; type=&#34;checkbox&#34;&gt; 确认显卡 VRAM：16GB 以上跑 26B MoE，8GB 以上跑 E4B&lt;/li&gt;
&lt;li&gt;&lt;input disabled=&#34;&#34; type=&#34;checkbox&#34;&gt; 安装 Ollama：&lt;code&gt;ollama run gemma4:4b&lt;/code&gt; 先试跑&lt;/li&gt;
&lt;li&gt;&lt;input disabled=&#34;&#34; type=&#34;checkbox&#34;&gt; 或下载 LM Studio，搜索 gemma-4，一键启动&lt;/li&gt;
&lt;li&gt;&lt;input disabled=&#34;&#34; type=&#34;checkbox&#34;&gt; 把 Open-WebUI 的模型切换到本地 Gemma 4&lt;/li&gt;
&lt;li&gt;&lt;input disabled=&#34;&#34; type=&#34;checkbox&#34;&gt; 测试你最常用的代码/推理任务，感受实际效果&lt;/li&gt;
&lt;/ul&gt;
&lt;hr&gt;
&lt;h2 id=&#34;参考资料&#34;&gt;参考资料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemma 4: Byte for byte, the most capable open models - Google Blog&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/blog/gemma4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Welcome Gemma 4: Frontier multimodal intelligence on device - HuggingFace&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-gemma-4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;A Visual Guide to Gemma 4 - Maarten Grootendorst&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://www.lushbinary.com/blog/gemma-4-developer-guide-benchmarks-architecture-local-deployment-2026/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Gemma 4 Developer Guide: Benchmarks &amp;amp; Local Deployment - Lushbinary&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://qubrid.com/blog/google-gemma-4-technical-deep-dive-architecture-moe-benchmarks-production-guide&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google Gemma 4 Deep Dive: Architecture, MoE &amp;amp; Benchmarks - Qubrid AI&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://reddit.com/r/LocalLLaMA/comments/1sdcotc&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Reddit: Gemma 4 just casually destroyed every model on our leaderboard - r/LocalLLaMA&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://reddit.com/r/LocalLLaMA/comments/1sd5utm&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Reddit: Per-Layer Embeddings - A simple explanation - r/LocalLLaMA&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://reddit.com/r/LocalLLaMA/comments/1scucfg&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Reddit: Gemma 4 26b is the perfect all around local model - r/LocalLLaMA&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
