2026-06-12 · 来源: Decrypt Security ·infrastructure·private-key-leak

Google发布DiffusionGemma：开放权重模型每秒处理1000个token，但运行时支持不足

Google发布了DiffusionGemma，一款免费的开放权重语言模型，采用文本扩散方式并行生成256个token，在NVIDIA H100上每秒可处理超过1000个token——比标准自回归模型快四倍。该模型从随机占位符token开始，逐步迭代优化为连贯文本，实现双向注意力机制，在代码填充和结构化输出等任务中表现出色。Google微调了一个版本，在数独任务中准确率达到80%，而基础模型仅为0%。然而，本地运行DiffusionGemma面临挑战。它需要一个自定义的草案模块用于推测解码，但该模块尚未出现在mlx-lm或LM Studio等公共运行时中。此外，尽管模型原生支持最高256K token的上下文窗口，但NVIDIA NIM默认将其限制为8,192 token，导致与Hermes Agent等需要至少64,000 token的代理框架集成失败。该模型面向拥有高端GPU（RTX 4090/5090）并构建实时工具的开发者，以及探索双向生成的研究人员。社区预计在未来几天内会更新相关工具链。

关键事实

DiffusionGemma并行生成256个token，在NVIDIA H100上每秒超过1000个token。
采用文本扩散和双向注意力机制，提升代码填充和结构化输出效果。
Google微调版本在数独任务中达到80%准确率，基础模型为0%。
模型需要自定义草案模块，但mlx-lm、LM Studio等运行时尚未支持。
NVIDIA NIM默认将上下文限制为8,192 token，阻止Hermes Agent等代理框架运行。
目标用户：拥有RTX 4090/5090 GPU的开发者及双向生成领域的研究人员。

KeyAudit 数据视角

📊 KeyAudit data: Base historical leak records: 1038616

阅读原文 →

Google发布DiffusionGemma：开放权重模型每秒处理1000个token，但运行时支持不足

关键事实

KeyAudit 数据视角

相关情报