Featured image of post 同一块 GPU,推理速度翻倍:Gemma 4 MTP 和 Qwen 3.6 MTP 同时来了

同一块 GPU,推理速度翻倍:Gemma 4 MTP 和 Qwen 3.6 MTP 同时来了

Google 发布 Gemma 4 MTP,官方数据最高 3 倍提速;阿里 Qwen 3.6 27B MTP 同日上 r/LocalLLaMA 热榜,用户实测 2.5 倍加速。多令牌预测正在成为开源模型的新标配——本文带你看懂原理,以及怎么在本地跑起来。

同一天,r/LocalLLaMA 上两篇帖子同时冲上热榜,内容分别是「Gemma 4 MTP released」(1046 赞)和「2.5x faster inference with Qwen 3.6 27B using MTP」(1051 赞)。这不是巧合,这是一个技术拐点。


2026 年 5 月 7 日,Google 和阿里同一天发布了各自旗舰开源模型的 MTP 加速版本。数字很直接:同一块 GPU,不换模型,不改参数,推理速度翻一倍到三倍。

如果你在跑本地大模型,这件事值得认真看一下。

先说今天发生了什么

Google DeepMind 发布了 Gemma 4 MTP 版本,支持 26B MoE、31B Dense 和 E2B/E4B 边缘模型。官方数据:

  • NVIDIA GPU(RTX PRO 6000):最高 3 倍速度提升
  • Apple Silicon(M 系列芯片):约 2.2 倍加速(batch size 4-8 时)
  • 质量:输出质量和推理逻辑不降级

几乎同时,r/LocalLLaMA 上一篇 Qwen 3.6 27B MTP 的帖子也冲上热榜,用户实测 2.5 倍加速,配置:48GB 显存,262k 上下文窗口。

这两件事放在一起,说明 MTP 已经不是某家公司的实验技术——它正在成为开源模型推理的新标准配置。

MTP 到底是什么

先从头讲清楚。

传统 LLM 推理是自回归的:模型每次只预测下一个 token,预测完才能预测下下一个,以此类推。你想要 100 个 token 的回答,模型就得走 100 步。每一步都要完整跑一遍 transformer 的 forward pass,这是推理慢的根本原因。

MTP(Multi-Token Prediction,多令牌预测)的思路是:不要只预测一个,先猜一串

具体怎么做?

  1. 配一个轻量的「草稿模型」(drafter),这个小模型很快,在大模型完成一次 forward pass 的时间里,它能猜出接下来 3-4 个 token
  2. 大模型(target model)拿到这 3-4 个候选 token,并行验证——这一步和验证 1 个 token 的计算量几乎一样
  3. 如果全部正确,直接接受,一次前向传播净赚 3-4 个 token
  4. 如果某个位置猜错了,从那里截断,重新生成

关键在于第 2 步:验证是并行的,代价极低。只要草稿模型猜对的概率足够高,整体吞吐量就会大幅提升。

MTP 推理流程对比:传统自回归 vs 多令牌预测

和 Speculative Decoding 什么关系?

严格来说,MTP 是 Speculative Decoding(推测解码)的一种实现方式。两者核心思路一致:用小模型猜,用大模型验。

但 Gemma 4 的 MTP 有一个关键设计差异:草稿模型与目标模型共享 KV 缓存和激活值

这意味着:

  • 不需要单独加载一个草稿模型的权重(省显存)
  • 草稿模型天然了解目标模型的上下文状态(猜的更准)
  • 整个推理流程更紧凑,适合显存有限的本地部署场景

传统 speculative decoding 需要找一个和大模型「配对」的小模型,配错了效果很差。MTP 的草稿模型是随主模型一起训练出来的,开箱即用。

数字说话:实际能快多少

Gemma 4 MTP 官方数据

Google 发布的基准测试中:

设备 模型 提速倍数
NVIDIA RTX PRO 6000 Gemma 4 31B Dense ~2-3x
Apple M 系列(M4 Max 等) Gemma 4 27B ~2.2x(batch=4-8)
手机端(Android/iOS) Gemma 4 E2B/E4B 有提升,具体因设备而异

实际提速受两个因素影响最大:草稿模型的命中率批量大小。命中率越高、batch 越大,加速越明显。

Qwen 3.6 27B MTP 社区实测

r/LocalLLaMA 热帖中,用户用 SGLang 在 48GB 显存环境下实测:

  • 标准推理:约 20 tokens/s
  • 启用 MTP(--speculative-num-draft-tokens 4):约 50 tokens/s
  • 实测提速:约 2.5 倍
  • 上下文长度:262k,全程稳定

这个数字在本地 AI 用户里算是相当可观了——等于你原本要等 10 秒的回复,现在 4 秒就能拿到。

MTP 启用前后推理速度对比

为什么 Google 和阿里同时在这个时间点发布?

不是巧合,是技术成熟度到位了。

MTP 的理论基础并不新。DeepMind 的 AlphaCode、Meta 的研究都探索过多 token 预测,但真正在大规模部署中跑通,需要主流推理框架的配合。

SGLang、vLLM、MLX、Ollama 这些框架在过去半年里都逐步加入了对 speculative decoding 的原生支持。框架层面的基础设施到位了,模型厂商自然开始批量跟进。

另一个时机因素:MTP 对训练过程有要求,模型要在训练时就配上草稿模型联合优化。这意味着 Gemma 4 和 Qwen 3.6 在发布之初就内置了 MTP 能力,并非后期打补丁。

趋势判断:接下来几个月,你会看到越来越多的开源模型发布时就自带 MTP 版本。Llama 系列、Mistral 系列大概率也会跟进。到年底,不带 MTP 的本地模型可能会显得「过时」。

怎么在本地跑起来

Gemma 4 MTP(推荐 Ollama 或 MLX)

Ollama(最简单)

1
2
3
4
5
# 拉取 Gemma 4 27B MTP 版本(Ollama 库更新后支持)
ollama pull gemma4:27b

# 运行
ollama run gemma4:27b

Ollama 已经在近期版本中集成了 MTP 支持,拉取带 MTP 标记的模型变体即可自动启用。

MLX(Apple Silicon 用户首选)

1
2
3
4
5
6
pip install mlx-lm

# 下载并运行(MLX 对 Gemma 4 MTP 支持最好)
python -m mlx_lm.generate \
  --model google/gemma-4-27b-mtp \
  --prompt "你好,介绍一下 MTP 技术"

MLX 框架对 Apple Silicon 统一内存做了深度优化,跑 Gemma 4 MTP 的 2.2x 加速在 M3/M4 芯片上能稳定复现。

Qwen 3.6 27B MTP(推荐 SGLang)

SGLang 是目前对 MTP/speculative decoding 支持最成熟的推理框架:

1
2
3
4
5
6
7
8
9
pip install sglang

# 启动 Qwen 3.6 27B MTP 推理服务
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-num-draft-tokens 4 \
  --tp 2  # 如果有两张 GPU

几个参数说明:

  • --speculative-algo NEXTN:启用 Next-N Token 推测算法(MTP 的 SGLang 实现)
  • --speculative-num-steps 3:草稿模型跑 3 步
  • --speculative-num-draft-tokens 4:每步最多猜 4 个候选 token
  • --tp 2:双 GPU 张量并行(48GB 显存建议两张 24GB 或一张 48GB)

vLLM 用户

1
2
3
vllm serve Qwen/Qwen3.6-27B \
  --speculative-model "[ngram]" \
  --num-speculative-tokens 4

vLLM 的 ngram speculative decoding 也能提速,但命中率比 MTP 专用草稿模型稍低。

注意事项

什么情况下 MTP 效果最好?

  • 长文本生成(小说、报告、代码):草稿模型命中率高,加速明显
  • 重复性较高的内容(代码补全、模板填写):效果最佳

什么情况下 MTP 效果有限?

  • 极短回复(1-3 个 token):加速来不及体现
  • 高温度随机采样(temperature > 1.0):草稿命中率下降

显存:MTP 会多用多少?

几乎不额外增加。草稿模型共享 KV cache 的设计意味着额外显存开销通常在 5% 以内,对本地部署用户基本无感。

总结

MTP 是推理优化里难得的「免费午餐」:不换模型、不损质量、不加显存,速度翻倍。

Google 和阿里同一天跟进,说明这项技术的基础设施依赖已经就位,主流框架的支持也已到位。接下来几个月,MTP 会从「高级用户才用的技巧」变成「新模型的标配能力」。

如果你现在在本地跑 Gemma 4 或 Qwen 3.6,不妨直接切到 MTP 版本试一下——2.5 倍的提速,体感差别还是很明显的。


参考来源

RSS Feed 使用 Hugo 构建
主题 StackJimmy 设计