Google 今天放弃了 DiffusionGemma ,这是一种开放式人工智能模型,它可以像图像生成器创建图片一样生成文本:从噪音开始,不断完善,直到有意义。在 NVIDIA H100 上每秒达到 1,000 个令牌。 (令牌是人工智能模型处理的信息的基本单位。)这意味着它比普通 Gemma 快四倍。它也是免费的,Apache 2.0,在 Hugging Face 上有权重。
与往常一样,问题在于细则。根据 Google 的公告,该模型达到“在 NVIDIA GeForce RTX 5090 上每秒超过 700 个令牌”。它的输出质量也落后于标准 Gemma 4。
Google 自己也是这么说的。这是速度模型,而不是质量升级。
这实际上是做什么的
你用过的每一个法学硕士都是一台打字机。一次一个标记,每个单词都依赖于最后一个单词。这就是自回归架构的工作原理。
DiffusionGemma 不会这样做。它不是按顺序生成标记,而是从并行的细化乱码文本块开始。根据 Google 的开发人员指南,它“从随机占位符标记的画布开始”,并迭代锁定可信标记,直到整个块成为焦点。每次前传需要两百五十六个令牌。 GPU 保持忙碌状态。
副作用是双向注意力 - 每个令牌在生成时都可以看到其他每个令牌,这在自回归模型中是不可能的(它们看不到未来,将要编码什么)。这使得它异常擅长于答案结尾限制开头的任务:代码填充、结构化输出、约束繁重的问题等。Google 微调了一个版本来解决数独作为演示。基本模型大约答对了 0% 的谜题。
微调版本达到80%。
文本传播多年来一直是一个研究项目。 MDLM、SEDD、LLaDA、Dream - 证明该方法在小型环境下有效的学术模型规模并主要作为概念证明。 Inception Labs 于 2026 年 2 月发布了 Mercury 2,作为第一个商业扩散推理模型,声称速度比速度优化的竞争对手快五倍。
但这些都不是开放重量的,而且没有一个在 vLLM、Hugging Face Transformers 和 Unsloth 中提供零日支持。 DiffusionGemma 是一级实验室的第一个主要开放版本。
还有一个值得注意的历史讽刺。图像生成器最初是作为扩散模型(因此称为稳定扩散),现在正在转向自回归架构以提高质量。语言模型一开始是自回归的,现在正在尝试扩散以提高速度。
为什么现在跑步很痛苦
有效地运行 DiffusionGemma 需要一个起草者——一种并行提出令牌块的轻量级模块,然后主模型在一次前向传递中验证该令牌块。这称为推测解码。 DFlash 是一个于 2026 年初发布的框架,它使用小型扩散模型作为起草者,在某些任务上实现超过 6 倍的加速。正是该引擎使此类模型变得实用。
问题:DiffusionGemma 需要一个特定的绘图器通过 MLX(Apple 针对 Apple Silicon 的机器学习框架)在本地运行。该模块不存在于 mlx-lm 的任何公共版本、任何开放的拉取请求或 LM Studio 的捆绑运行时中。
我们尝试通过 NVIDIA NIM 与 Hermes 一起运行 DiffusionGemma。模型已加载,但随后出现:“代理初始化失败:模型 google/diffusiongemma-26b-a4b-it 的上下文窗口包含 8,192 个令牌,低于 Hermes Agent 所需的最低 64,000 个令牌。”
准确地说:DiffusionGemma 的实际上下文窗口是 256K 个令牌。 8,192 这个数字是 Nvidia 默认情况下搞乱的,而不是模型的架构限制。
在实践中,正确配置它以供代理使用需要手动工作,而大多数日常用户还没有弄清楚,如果没有它,Hermes Agent 根本无法初始化。如果代理无法启动,并行速度就没有意义。
希望在接下来的几天里,社区能够提供更好的资源来运行这些模型。
这实际上是给谁的
使用 NVIDIA RTX 4090 或 5090 硬件构建实时工具的开发人员 - 内联编辑器、自动完成、代码填充、结构化生成。这就是目标。正如《Decrypt》5 月份所述,Google 一直在稳步推动本地推理速度的提高,而无需使用新硬件。
对于研究人员来说,双向生成打开了自回归模型根本无法到达的领域——蛋白质序列、数学图表、位置 N 取决于位置 N+50 的任何东西。这可不是小事。
Google 4 月份在 Apache 2.0 下推出了 Gemma 4,DiffusionGemma 延续了这一策略。截至今天,已经有 llama.cpp PR 草案开放。当工具链跟上时,就会覆盖更广泛的受众。
在具有强大独立 GPU 的机器上,每秒 1,000 个令牌是真实的。
