Google 开源了一个怪物：Gemma 4 的 26B 版本跑起来只有 4B 的算力开销

在本地 AI 排行榜上，Gemma 4 把几乎所有对手都打下去了——只有 Claude Opus 4.6 和 GPT-5.2 还站着。

2026 年 4 月 2 日，Google DeepMind 发布了 Gemma 4。

这次不是悄悄发布，而是一出手就拿出了四款模型，从手机能跑的 E2B 到服务器级别的 31B Dense，全系 Apache 2.0 开源，商用无限制。

结果在 Reddit LocalLLaMA 社区，一个帖子获得了 821 个赞：

“Gemma 4 just casually destroyed every model on our leaderboard except Opus 4.6 and GPT-5.2.”

“随手就把排行榜上的模型全干掉了”——这句话在社区里传了好几天。

发生了什么？

一、Gemma 4 到底有多强

先看数字。

Benchmark	Gemma 4 31B	Gemma 4 26B MoE	Gemma 4 E4B	Gemma 3 27B（上代）
MMLU Pro	85.2%	82.6%	69.4%	67.6%
AIME 2026（数学竞赛）	89.2%	88.3%	42.5%	20.8%
GPQA Diamond（博士级科学）	84.3%	82.3%	58.6%	42.4%
Codeforces ELO（编程竞赛）	2150	1718	940	110

几个对比让这个数据更有感觉：

上代 Gemma 3 27B 的 AIME 分数是 20.8%，这代 31B 是 89.2%。同量级参数，数学能力直接翻了 4 倍多。
Codeforces ELO 2150 意味着什么？人类竞赛程序员里，这个分数大约对应前 0.3%。
在全球开源模型排行榜（Arena AI）上，31B 版本排名第 3，26B MoE 版本排名第 6。

和 Qwen 3.5 比：Gemma 4 31B 在 MMLU Pro 上（85.2% vs ~82%）略有优势，但两者都处于同一档位——这是真正的顶级开源模型之争，不再是"比闭源差一截的替代品"。

二、26B 跑起来只用 4B 的算力——这是怎么回事

这是 Gemma 4 最有意思的地方，也是为什么叫"怪物"。

Gemma 4 26B 的全称是 Gemma 4 26B A4B——A4B 代表 “Active 4B”，意思是推理时只激活 3.8B 参数，但整体参数量是 26B。

这用的是 MoE（Mixture of Experts，混合专家）架构：

模型内部有很多"专家网络"，每次推理时，一个路由机制决定激活哪些专家来处理当前的 token。大多数参数大部分时间都是闲置的。

实际效果：26B MoE 的推理速度和 4B 模型相当，但性能接近 26B 模型。

换个说法：你用 4B 模型的算力和速度，跑出了 26B 的效果。

对比维度	26B MoE (A4B)	标准 26B Dense
总参数量	26B	26B
推理激活参数	3.8B	26B
推理速度	≈ 4B 模型	慢 6-7 倍
性能	接近 26B Dense	26B Dense
VRAM 占用	更低	更高

MoE架构对比：Standard Dense 26B 全节点激活 vs MoE 26B 只激活 3.8B，速度差异一目了然

这也解释了为什么 26B MoE 在排行榜上是第 6，而不是像直觉预期的那样输给 31B Dense 很多——它在效率上弥补了一部分性能差距。

三、Per-Layer Embeddings：小模型变强的真正秘密

MoE 解释了 26B 的效率问题，但 Gemma 4 的 E2B 和 E4B 这两个小模型也明显强过上代，靠的是另一个技术：Per-Layer Embeddings（PLE，逐层嵌入）。

理解这个之前，先理解传统方法的问题。

传统 Transformer 的做法：每个 token 进入模型时，做一次 embedding 查找，得到一个向量，然后这个向量流过所有的层，逐层累积上下文信息。问题是：这个初始向量需要"预装"所有层可能用到的信息——负担很重，而且很多信息在特定层其实用不上。

PLE 的做法：加一个额外的嵌入表，为每个 token 在每一层单独提供一个小向量（256 维，而不是主嵌入的 1536 维）。这些向量存在闪存里，推理开始时一次性加载。

效果是什么？

token “cat” 在第 2 层的含义可以是"我是一个名词"，在第 18 层的含义可以是"我是一种小动物"。

每一层都能接收"当前这个 token 现在对我意味着什么"的专属信号，而不是只靠第一层的静态向量撑到最后。

这让小模型能更充分地利用有限参数——不是堆参数，而是让每个参数都更精准地工作。

Per-Layer Embeddings对比：传统方式只有一个入口嵌入，PLE 为每一层单独提供信号，token 在不同层的"意义"各不相同

这也是为什么 E4B（4B 参数）在 AIME 2026 上能拿到 42.5%，而上代 27B（参数量是它的 7 倍）只有 20.8%。

四、Gemma 4 的四个版本：该选哪个

版本	实际参数	主要特性	最低硬件	推荐硬件
E2B	~2B 激活	手机/嵌入式，支持视频+音频	4GB RAM	手机/树莓派
E4B	~4B 激活	轻量多模态 Agent，支持音频	8GB RAM	M 系列 MacBook
26B MoE (A4B)	3.8B 激活	最佳性价比，速度≈4B	16GB VRAM	RTX 4090 / 4080
31B Dense	31B	最高性能，适合微调	24GB VRAM	H100 / A100

大多数开发者的选择：

笔记本 / M 系列 Mac → E4B：够用，速度快，支持多模态
有 16-24GB VRAM 的台式机 → 26B MoE：性能最强，速度还快
需要微调的研究场景 → 31B Dense

五、本地跑起来：三分钟上手

方式一：Ollama（推荐）

1
2
3
4
5


# 运行 Gemma 4 E4B（轻量版，大多数人的起点）
ollama run gemma4:4b

# 运行 26B MoE（需要 16GB+ VRAM）
ollama run gemma4:27b

Ollama 自动处理量化和下载，运行后本地起 OpenAI 兼容 API，可以直接接 Cursor、Open-WebUI、任何支持 OpenAI 格式的工具。

方式二：llama.cpp（更高性能）

1
2


# 直接用 Hugging Face GGUF 格式
llama-server -hf ggml-org/gemma-4-26b-a4b-it-GGUF:Q4_K_M

Q4_K_M 是 4bit 量化版本，26B MoE 在 Q4 下约需 10-12GB VRAM，一块 RTX 4080 可以流畅运行。

方式三：LM Studio（图形界面）

打开 LM Studio，搜索 gemma-4，点击下载。模型加载后自动提供本地 API 服务。适合不想碰命令行的用户。

六、和其他模型对比：该用 Gemma 4 替代什么

坦诚说明差距：

维度	Gemma 4 26B（本地）	Claude Sonnet 4.6（云端）
代码生成（复杂项目）	★★★★☆	★★★★★
数学推理	★★★★★	★★★★★
指令遵循	★★★★☆	★★★★★
长上下文	256K ✅	200K ✅
多模态（图片/视频）	✅ 原生支持	✅
数据隐私	✅ 完全本地	❌ 上传云端
延迟	无网络延迟	取决于网络
成本	电费（趋近于零）	按 token 计费

真正适合替代 Claude/GPT 的场景：

本地代码审查：速度快、不上传代码、够用
数学和逻辑推理：Gemma 4 的强项，接近顶级闭源模型
多模态本地应用：截图分析、文档理解，数据不出本机
高吞吐批量处理：不需要实时响应的任务，本地成本为零

仍然建议用 Claude 的场景：

复杂多步骤工程任务（Claude Code 的 Agent 能力目前仍领先）
需要工具调用和实时信息的场景
写作质量要求很高的内容创作

这件事的意义

Gemma 4 之所以在社区里引发轰动，不只是因为它跑分高。

更重要的信号是：开源模型与顶级闭源模型之间的差距，正在以比预期快得多的速度收窄。

半年前，本地模型还处于"能用但将就"的阶段。现在，Gemma 4 31B 在数学竞赛题上的成绩（AIME 89.2%）已经超过了绝大多数闭源商业模型的公开数据。

这条线在继续移动。

对开发者的实际意义：

本地 AI 工作流正在变得可行——不只是代码补全，而是真正的任务自动化
数据隐私敏感场景（医疗、法律、企业内部数据）有了更可信赖的本地选项
运行成本正在接近于零——对高吞吐场景来说，这是量变引发质变

Gemma 4 只是一个节点。它证明了 Google 在开源模型上认真了——Apache 2.0 授权、商用无限制，这是一个明确的市场信号。

快速上手清单

确认显卡 VRAM：16GB 以上跑 26B MoE，8GB 以上跑 E4B
安装 Ollama：ollama run gemma4:4b 先试跑
或下载 LM Studio，搜索 gemma-4，一键启动
把 Open-WebUI 的模型切换到本地 Gemma 4
测试你最常用的代码/推理任务，感受实际效果