大模型动态

Google 发布 DiffusionGemma:开源文本扩散模型,生成速度提升最高 4 倍

发布时间:2026年06月11日 09:00:00

Google 于 6 月 10 日发布 DiffusionGemma,这是一个基于扩散策略的新型文本生成模型,不同于传统自回归模型逐 token 生成的方式,DiffusionGemma 通过双向上下文并行精炼文本块,在特定场景下实现最高 4 倍的 token 生成速度提升。该模型为 26B MoE 架构,4B 活跃参数,基于 Gemma 4 构建。


6 月 11 日,Google 正式发布 DiffusionGemma,这是 AI 文本生成领域的一项突破性实验性模型。不同于传统自回归语言模型逐 token 生成文本的方式,DiffusionGemma 采用扩散风格的过程,并行精炼文本块。

技术架构

DiffusionGemma 基于 Gemma 4 构建,采用混合专家(MoE)架构,总参数量达 26B,但每次推理仅激活 4B 参数。模型使用双向上下文和迭代校正机制进行文本生成,显著改变了大语言模型的推理路径。

核心优势

Google 表示,这种方法可以将瓶颈从顺序内存带宽限制中转移出来,在 GPU 上实现更高的吞吐量。开发者指南显示,在某些设置下,DiffusionGemma 可实现最高 4 倍的 token 生成速度提升。NVIDIA 的报道强调该模型可在 RTX 硬件上本地运行,这意味着开源模型正在从单纯追求基准分数转向更注重可部署性。

应用场景

如果扩散文本生成技术成熟,开发者将在长文本输出、批量编辑、代码重写和 Agent 追踪等场景中获得全新的延迟/成本权衡选择。该模型已通过 Google 开发者平台开放使用。

行业意义

分析人士指出,前沿模型的竞赛往往聚焦于更大的上下文窗口和更大的集群,而 DiffusionGemma 提供了一条全新的解码路径,从本质上改变了推理的工程形态。这对于整个开源 AI 生态来说是一个令人兴奋的发展方向。

来源:Google AI Blog、NVIDIA Developer Blog