Google 的 DiffusionGemma AI 达到每秒 1,000 个代币 - 而且免费

Google 今天放弃了 DiffusionGemma ，这是一种开放式人工智能模型，它可以像图像生成器创建图片一样生成文本：从噪音开始，不断完善，直到有意义。在 NVIDIA H100 上每秒达到 1,000 个令牌。（令牌是人工智能模型处理的信息的基本单位。）这意味着它比普通 Gemma 快四倍。它也是免费的，Apache 2.0，在 Hugging Face 上有权重。

Google's DiffusionGemma AI Hits 1,000 Tokens Per Second—And It's Free

与往常一样，问题在于细则。根据 Google 的公告，该模型达到“在 NVIDIA GeForce RTX 5090 上每秒超过 700 个令牌”。它的输出质量也落后于标准 Gemma 4。

Google 自己也是这么说的。这是速度模型，而不是质量升级。

这实际上是做什么的

你用过的每一个法学硕士都是一台打字机。一次一个标记，每个单词都依赖于最后一个单词。这就是自回归架构的工作原理。

DiffusionGemma 不会这样做。它不是按顺序生成标记，而是从并行的细化乱码文本块开始。根据 Google 的开发人员指南，它“从随机占位符标记的画布开始”，并迭代锁定可信标记，直到整个块成为焦点。每次前传需要两百五十六个令牌。 GPU 保持忙碌状态。

Google's DiffusionGemma AI Hits 1,000 Tokens Per Second—And It's Free

副作用是双向注意力 - 每个令牌在生成时都可以看到其他每个令牌，这在自回归模型中是不可能的（它们看不到未来，将要编码什么）。这使得它异常擅长于答案结尾限制开头的任务：代码填充、结构化输出、约束繁重的问题等。Google 微调了一个版本来解决数独作为演示。基本模型大约答对了 0% 的谜题。

微调版本达到80%。

文本传播多年来一直是一个研究项目。 MDLM、SEDD、LLaDA、Dream - 证明该方法在小型环境下有效的学术模型规模并主要作为概念证明。 Inception Labs 于 2026 年 2 月发布了 Mercury 2，作为第一个商业扩散推理模型，声称速度比速度优化的竞争对手快五倍。

&amp;amp;amp;amp;amp;lt;span style="宽度：0px；溢出：隐藏；行高： 0" data-mce-type="bookmark" class="mce_SELRES_start"&amp;amp;amp;amp;gt;&amp;amp;amp;amp;lt;/span&amp;amp;amp;amp;amp;gt;

但这些都不是开放重量的，而且没有一个在 vLLM、Hugging Face Transformers 和 Unsloth 中提供零日支持。 DiffusionGemma 是一级实验室的第一个主要开放版本。

还有一个值得注意的历史讽刺。图像生成器最初是作为扩散模型（因此称为稳定扩散），现在正在转向自回归架构以提高质量。语言模型一开始是自回归的，现在正在尝试扩散以提高速度。

为什么现在跑步很痛苦

有效地运行 DiffusionGemma 需要一个起草者——一种并行提出令牌块的轻量级模块，然后主模型在一次前向传递中验证该令牌块。这称为推测解码。 DFlash 是一个于 2026 年初发布的框架，它使用小型扩散模型作为起草者，在某些任务上实现超过 6 倍的加速。正是该引擎使此类模型变得实用。

问题：DiffusionGemma 需要一个特定的绘图器通过 MLX（Apple 针对 Apple Silicon 的机器学习框架）在本地运行。该模块不存在于 mlx-lm 的任何公共版本、任何开放的拉取请求或 LM Studio 的捆绑运行时中。

我们尝试通过 NVIDIA NIM 与 Hermes 一起运行 DiffusionGemma。模型已加载，但随后出现：“代理初始化失败：模型 google/diffusiongemma-26b-a4b-it 的上下文窗口包含 8,192 个令牌，低于 Hermes Agent 所需的最低 64,000 个令牌。”

准确地说：DiffusionGemma 的实际上下文窗口是 256K 个令牌。 8,192 这个数字是 Nvidia 默认情况下搞乱的，而不是模型的架构限制。

在实践中，正确配置它以供代理使用需要手动工作，而大多数日常用户还没有弄清楚，如果没有它，Hermes Agent 根本无法初始化。如果代理无法启动，并行速度就没有意义。

希望在接下来的几天里，社区能够提供更好的资源来运行这些模型。

这实际上是给谁的

使用 NVIDIA RTX 4090 或 5090 硬件构建实时工具的开发人员 - 内联编辑器、自动完成、代码填充、结构化生成。这就是目标。正如《Decrypt》5 月份所述，Google 一直在稳步推动本地推理速度的提高，而无需使用新硬件。

对于研究人员来说，双向生成打开了自回归模型根本无法到达的领域——蛋白质序列、数学图表、位置 N 取决于位置 N+50 的任何东西。这可不是小事。

Google 4 月份在 Apache 2.0 下推出了 Gemma 4，DiffusionGemma 延续了这一策略。截至今天，已经有 llama.cpp PR 草案开放。当工具链跟上时，就会覆盖更广泛的受众。

在具有强大独立 GPU 的机器上，每秒 1,000 个令牌是真实的。