大模型动态

Google 发布 DiffusionGemma：开源文本扩散模型，生成速度提升最高 4 倍

发布时间：2026年06月11日 09:00:00

Google 于 6 月 10 日发布 DiffusionGemma，这是一个基于扩散策略的新型文本生成模型，不同于传统自回归模型逐 token 生成的方式，DiffusionGemma 通过双向上下文并行精炼文本块，在特定场景下实现最高 4 倍的 token 生成速度提升。该模型为 26B MoE 架构，4B 活跃参数，基于 Gemma 4 构建。

6 月 11 日，Google 正式发布 DiffusionGemma，这是 AI 文本生成领域的一项突破性实验性模型。不同于传统自回归语言模型逐 token 生成文本的方式，DiffusionGemma 采用扩散风格的过程，并行精炼文本块。

技术架构

DiffusionGemma 基于 Gemma 4 构建，采用混合专家（MoE）架构，总参数量达 26B，但每次推理仅激活 4B 参数。模型使用双向上下文和迭代校正机制进行文本生成，显著改变了大语言模型的推理路径。

核心优势

Google 表示，这种方法可以将瓶颈从顺序内存带宽限制中转移出来，在 GPU 上实现更高的吞吐量。开发者指南显示，在某些设置下，DiffusionGemma 可实现最高 4 倍的 token 生成速度提升。NVIDIA 的报道强调该模型可在 RTX 硬件上本地运行，这意味着开源模型正在从单纯追求基准分数转向更注重可部署性。

应用场景

如果扩散文本生成技术成熟，开发者将在长文本输出、批量编辑、代码重写和 Agent 追踪等场景中获得全新的延迟/成本权衡选择。该模型已通过 Google 开发者平台开放使用。

行业意义

分析人士指出，前沿模型的竞赛往往聚焦于更大的上下文窗口和更大的集群，而 DiffusionGemma 提供了一条全新的解码路径，从本质上改变了推理的工程形态。这对于整个开源 AI 生态来说是一个令人兴奋的发展方向。

来源：Google AI Blog、NVIDIA Developer Blog

返回列表