<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>MTP on 奇诺分享 | 重在分享</title>
        <link>https://blog.ccino.org/tags/mtp/</link>
        <description>Recent content in MTP on 奇诺分享 | 重在分享</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Thu, 07 May 2026 20:00:00 +0800</lastBuildDate><atom:link href="https://blog.ccino.org/tags/mtp/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>同一块 GPU，推理速度翻倍：Gemma 4 MTP 和 Qwen 3.6 MTP 同时来了</title>
        <link>https://blog.ccino.org/p/gemma4-mtp-inference-2026/</link>
        <pubDate>Thu, 07 May 2026 20:00:00 +0800</pubDate>
        
        <guid>https://blog.ccino.org/p/gemma4-mtp-inference-2026/</guid>
        <description>&lt;img src="https://blog.ccino.org/p/gemma4-mtp-inference-2026/imgs/cover.png" alt="Featured image of post 同一块 GPU，推理速度翻倍：Gemma 4 MTP 和 Qwen 3.6 MTP 同时来了" /&gt;&lt;blockquote&gt;
&lt;p&gt;同一天，r/LocalLLaMA 上两篇帖子同时冲上热榜，内容分别是「Gemma 4 MTP released」（1046 赞）和「2.5x faster inference with Qwen 3.6 27B using MTP」（1051 赞）。这不是巧合，这是一个技术拐点。&lt;/p&gt;
&lt;/blockquote&gt;
&lt;hr&gt;
&lt;p&gt;2026 年 5 月 7 日，Google 和阿里同一天发布了各自旗舰开源模型的 MTP 加速版本。数字很直接：同一块 GPU，不换模型，不改参数，推理速度翻一倍到三倍。&lt;/p&gt;
&lt;p&gt;如果你在跑本地大模型，这件事值得认真看一下。&lt;/p&gt;
&lt;h2 id=&#34;先说今天发生了什么&#34;&gt;先说今天发生了什么
&lt;/h2&gt;&lt;p&gt;Google DeepMind 发布了 Gemma 4 MTP 版本，支持 26B MoE、31B Dense 和 E2B/E4B 边缘模型。官方数据：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;NVIDIA GPU（RTX PRO 6000）：最高 &lt;strong&gt;3 倍&lt;/strong&gt;速度提升&lt;/li&gt;
&lt;li&gt;Apple Silicon（M 系列芯片）：&lt;strong&gt;约 2.2 倍&lt;/strong&gt;加速（batch size 4-8 时）&lt;/li&gt;
&lt;li&gt;质量：输出质量和推理逻辑&lt;strong&gt;不降级&lt;/strong&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;几乎同时，r/LocalLLaMA 上一篇 Qwen 3.6 27B MTP 的帖子也冲上热榜，用户实测 &lt;strong&gt;2.5 倍加速&lt;/strong&gt;，配置：48GB 显存，262k 上下文窗口。&lt;/p&gt;
&lt;p&gt;这两件事放在一起，说明 MTP 已经不是某家公司的实验技术——它正在成为开源模型推理的新标准配置。&lt;/p&gt;
&lt;h2 id=&#34;mtp-到底是什么&#34;&gt;MTP 到底是什么
&lt;/h2&gt;&lt;p&gt;先从头讲清楚。&lt;/p&gt;
&lt;p&gt;传统 LLM 推理是&lt;strong&gt;自回归&lt;/strong&gt;的：模型每次只预测下一个 token，预测完才能预测下下一个，以此类推。你想要 100 个 token 的回答，模型就得走 100 步。每一步都要完整跑一遍 transformer 的 forward pass，这是推理慢的根本原因。&lt;/p&gt;
&lt;p&gt;MTP（Multi-Token Prediction，多令牌预测）的思路是：&lt;strong&gt;不要只预测一个，先猜一串&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;具体怎么做？&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;配一个轻量的「草稿模型」（drafter），这个小模型很快，在大模型完成一次 forward pass 的时间里，它能猜出接下来 3-4 个 token&lt;/li&gt;
&lt;li&gt;大模型（target model）拿到这 3-4 个候选 token，&lt;strong&gt;并行验证&lt;/strong&gt;——这一步和验证 1 个 token 的计算量几乎一样&lt;/li&gt;
&lt;li&gt;如果全部正确，直接接受，一次前向传播净赚 3-4 个 token&lt;/li&gt;
&lt;li&gt;如果某个位置猜错了，从那里截断，重新生成&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;关键在于第 2 步：&lt;strong&gt;验证是并行的，代价极低&lt;/strong&gt;。只要草稿模型猜对的概率足够高，整体吞吐量就会大幅提升。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/gemma4-mtp-inference-2026/imgs/mtp-process-diagram.png&#34;
	width=&#34;1376&#34;
	height=&#34;768&#34;
	srcset=&#34;https://blog.ccino.org/p/gemma4-mtp-inference-2026/imgs/mtp-process-diagram_hu_c2ea8dd4d263d177.png 480w, https://blog.ccino.org/p/gemma4-mtp-inference-2026/imgs/mtp-process-diagram_hu_a106fd14ecc199fe.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;MTP 推理流程对比：传统自回归 vs 多令牌预测&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;h3 id=&#34;和-speculative-decoding-什么关系&#34;&gt;和 Speculative Decoding 什么关系？
&lt;/h3&gt;&lt;p&gt;严格来说，MTP 是 Speculative Decoding（推测解码）的一种实现方式。两者核心思路一致：用小模型猜，用大模型验。&lt;/p&gt;
&lt;p&gt;但 Gemma 4 的 MTP 有一个关键设计差异：&lt;strong&gt;草稿模型与目标模型共享 KV 缓存和激活值&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这意味着：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;不需要单独加载一个草稿模型的权重（省显存）&lt;/li&gt;
&lt;li&gt;草稿模型天然了解目标模型的上下文状态（猜的更准）&lt;/li&gt;
&lt;li&gt;整个推理流程更紧凑，适合显存有限的本地部署场景&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;传统 speculative decoding 需要找一个和大模型「配对」的小模型，配错了效果很差。MTP 的草稿模型是随主模型一起训练出来的，开箱即用。&lt;/p&gt;
&lt;h2 id=&#34;数字说话实际能快多少&#34;&gt;数字说话：实际能快多少
&lt;/h2&gt;&lt;h3 id=&#34;gemma-4-mtp-官方数据&#34;&gt;Gemma 4 MTP 官方数据
&lt;/h3&gt;&lt;p&gt;Google 发布的基准测试中：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;设备&lt;/th&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;提速倍数&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;NVIDIA RTX PRO 6000&lt;/td&gt;
          &lt;td&gt;Gemma 4 31B Dense&lt;/td&gt;
          &lt;td&gt;~2-3x&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;Apple M 系列（M4 Max 等）&lt;/td&gt;
          &lt;td&gt;Gemma 4 27B&lt;/td&gt;
          &lt;td&gt;~2.2x（batch=4-8）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;手机端（Android/iOS）&lt;/td&gt;
          &lt;td&gt;Gemma 4 E2B/E4B&lt;/td&gt;
          &lt;td&gt;有提升，具体因设备而异&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;实际提速受两个因素影响最大：&lt;strong&gt;草稿模型的命中率&lt;/strong&gt;和&lt;strong&gt;批量大小&lt;/strong&gt;。命中率越高、batch 越大，加速越明显。&lt;/p&gt;
&lt;h3 id=&#34;qwen-36-27b-mtp-社区实测&#34;&gt;Qwen 3.6 27B MTP 社区实测
&lt;/h3&gt;&lt;p&gt;r/LocalLLaMA 热帖中，用户用 SGLang 在 48GB 显存环境下实测：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;标准推理：约 20 tokens/s&lt;/li&gt;
&lt;li&gt;启用 MTP（&lt;code&gt;--speculative-num-draft-tokens 4&lt;/code&gt;）：约 50 tokens/s&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;实测提速：约 2.5 倍&lt;/strong&gt;&lt;/li&gt;
&lt;li&gt;上下文长度：262k，全程稳定&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这个数字在本地 AI 用户里算是相当可观了——等于你原本要等 10 秒的回复，现在 4 秒就能拿到。&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://blog.ccino.org/p/gemma4-mtp-inference-2026/imgs/speed-comparison.png&#34;
	width=&#34;1376&#34;
	height=&#34;768&#34;
	srcset=&#34;https://blog.ccino.org/p/gemma4-mtp-inference-2026/imgs/speed-comparison_hu_3670fed87b14aa3e.png 480w, https://blog.ccino.org/p/gemma4-mtp-inference-2026/imgs/speed-comparison_hu_e3c3dd9dd9361cb6.png 1024w&#34;
	loading=&#34;lazy&#34;
	
		alt=&#34;MTP 启用前后推理速度对比&#34;
	
	
		class=&#34;gallery-image&#34; 
		data-flex-grow=&#34;179&#34;
		data-flex-basis=&#34;430px&#34;
	
&gt;&lt;/p&gt;
&lt;h2 id=&#34;为什么-google-和阿里同时在这个时间点发布&#34;&gt;为什么 Google 和阿里同时在这个时间点发布？
&lt;/h2&gt;&lt;p&gt;不是巧合，是技术成熟度到位了。&lt;/p&gt;
&lt;p&gt;MTP 的理论基础并不新。DeepMind 的 AlphaCode、Meta 的研究都探索过多 token 预测，但真正在大规模部署中跑通，需要主流推理框架的配合。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;SGLang、vLLM、MLX、Ollama&lt;/strong&gt; 这些框架在过去半年里都逐步加入了对 speculative decoding 的原生支持。框架层面的基础设施到位了，模型厂商自然开始批量跟进。&lt;/p&gt;
&lt;p&gt;另一个时机因素：MTP 对训练过程有要求，模型要在训练时就配上草稿模型联合优化。这意味着 Gemma 4 和 Qwen 3.6 在发布之初就内置了 MTP 能力，并非后期打补丁。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;趋势判断&lt;/strong&gt;：接下来几个月，你会看到越来越多的开源模型发布时就自带 MTP 版本。Llama 系列、Mistral 系列大概率也会跟进。到年底，不带 MTP 的本地模型可能会显得「过时」。&lt;/p&gt;
&lt;h2 id=&#34;怎么在本地跑起来&#34;&gt;怎么在本地跑起来
&lt;/h2&gt;&lt;h3 id=&#34;gemma-4-mtp推荐-ollama-或-mlx&#34;&gt;Gemma 4 MTP（推荐 Ollama 或 MLX）
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;Ollama（最简单）&lt;/strong&gt;&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 拉取 Gemma 4 27B MTP 版本（Ollama 库更新后支持）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama pull gemma4:27b
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 运行&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;ollama run gemma4:27b
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;Ollama 已经在近期版本中集成了 MTP 支持，拉取带 MTP 标记的模型变体即可自动启用。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;MLX（Apple Silicon 用户首选）&lt;/strong&gt;&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install mlx-lm
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 下载并运行（MLX 对 Gemma 4 MTP 支持最好）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python -m mlx_lm.generate &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --model google/gemma-4-27b-mtp &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --prompt &lt;span class=&#34;s2&#34;&gt;&amp;#34;你好，介绍一下 MTP 技术&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;MLX 框架对 Apple Silicon 统一内存做了深度优化，跑 Gemma 4 MTP 的 2.2x 加速在 M3/M4 芯片上能稳定复现。&lt;/p&gt;
&lt;h3 id=&#34;qwen-36-27b-mtp推荐-sglang&#34;&gt;Qwen 3.6 27B MTP（推荐 SGLang）
&lt;/h3&gt;&lt;p&gt;SGLang 是目前对 MTP/speculative decoding 支持最成熟的推理框架：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;9
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;pip install sglang
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;c1&#34;&gt;# 启动 Qwen 3.6 27B MTP 推理服务&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;python -m sglang.launch_server &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --model-path Qwen/Qwen3.6-27B &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --speculative-algo NEXTN &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --speculative-num-steps &lt;span class=&#34;m&#34;&gt;3&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --speculative-num-draft-tokens &lt;span class=&#34;m&#34;&gt;4&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --tp &lt;span class=&#34;m&#34;&gt;2&lt;/span&gt;  &lt;span class=&#34;c1&#34;&gt;# 如果有两张 GPU&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;几个参数说明：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;--speculative-algo NEXTN&lt;/code&gt;：启用 Next-N Token 推测算法（MTP 的 SGLang 实现）&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--speculative-num-steps 3&lt;/code&gt;：草稿模型跑 3 步&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--speculative-num-draft-tokens 4&lt;/code&gt;：每步最多猜 4 个候选 token&lt;/li&gt;
&lt;li&gt;&lt;code&gt;--tp 2&lt;/code&gt;：双 GPU 张量并行（48GB 显存建议两张 24GB 或一张 48GB）&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;vLLM 用户&lt;/strong&gt;&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;vllm serve Qwen/Qwen3.6-27B &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --speculative-model &lt;span class=&#34;s2&#34;&gt;&amp;#34;[ngram]&amp;#34;&lt;/span&gt; &lt;span class=&#34;se&#34;&gt;\
&lt;/span&gt;&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;  --num-speculative-tokens &lt;span class=&#34;m&#34;&gt;4&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;vLLM 的 ngram speculative decoding 也能提速，但命中率比 MTP 专用草稿模型稍低。&lt;/p&gt;
&lt;h3 id=&#34;注意事项&#34;&gt;注意事项
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;什么情况下 MTP 效果最好？&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;长文本生成（小说、报告、代码）：草稿模型命中率高，加速明显&lt;/li&gt;
&lt;li&gt;重复性较高的内容（代码补全、模板填写）：效果最佳&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;什么情况下 MTP 效果有限？&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;极短回复（1-3 个 token）：加速来不及体现&lt;/li&gt;
&lt;li&gt;高温度随机采样（temperature &amp;gt; 1.0）：草稿命中率下降&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;显存：MTP 会多用多少？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;几乎不额外增加。草稿模型共享 KV cache 的设计意味着额外显存开销通常在 5% 以内，对本地部署用户基本无感。&lt;/p&gt;
&lt;h2 id=&#34;总结&#34;&gt;总结
&lt;/h2&gt;&lt;p&gt;MTP 是推理优化里难得的「免费午餐」：不换模型、不损质量、不加显存，速度翻倍。&lt;/p&gt;
&lt;p&gt;Google 和阿里同一天跟进，说明这项技术的基础设施依赖已经就位，主流框架的支持也已到位。接下来几个月，MTP 会从「高级用户才用的技巧」变成「新模型的标配能力」。&lt;/p&gt;
&lt;p&gt;如果你现在在本地跑 Gemma 4 或 Qwen 3.6，不妨直接切到 MTP 版本试一下——2.5 倍的提速，体感差别还是很明显的。&lt;/p&gt;
&lt;hr&gt;
&lt;p&gt;&lt;strong&gt;参考来源&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Google 官方博客：Gemma 4 Multi-Token Prediction&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://reddit.com/r/LocalLLaMA/comments/1t4jq6h/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;r/LocalLLaMA：Gemma 4 MTP released（1046⬆️）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://reddit.com/r/LocalLLaMA/comments/1t57xuu/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;r/LocalLLaMA：2.5x faster inference with Qwen 3.6 27B using MTP（1051⬆️）&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://hn.buzzing.cc/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;HN Buzzing：Gemma 4 多令牌预测讨论&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://docs.sglang.ai/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;SGLang 官方文档：Speculative Decoding&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
