Google发布DiffusionGemma:开放权重模型每秒处理1000个token,但运行时支持不足
Google发布了DiffusionGemma,一款免费的开放权重语言模型,采用文本扩散方式并行生成256个token,在NVIDIA H100上每秒可处理超过1000个token——比标准自回归模型快四倍。该模型从随机占位符token开始,逐步迭代优化为连贯文本,实现双向注意力机制,在代码填充和结构化输出等任务中表现出色。Google微调了一个版本,在数独任务中准确率达到80%,而基础模型仅为0%。然而,本地运行DiffusionGemma面临挑战。它需要一个自定义的草案模块用于推测解码,但该模块尚未出现在mlx-lm或LM Studio等公共运行时中。此外,尽管模型原生支持最高256K token的上下文窗口,但NVIDIA NIM默认将其限制为8,192 token,导致与Hermes Agent等需要至少64,000 token的代理框架集成失败。该模型面向拥有高端GPU(RTX 4090/5090)并构建实时工具的开发者,以及探索双向生成的研究人员。社区预计在未来几天内会更新相关工具链。
关键事实
- DiffusionGemma并行生成256个token,在NVIDIA H100上每秒超过1000个token。
- 采用文本扩散和双向注意力机制,提升代码填充和结构化输出效果。
- Google微调版本在数独任务中达到80%准确率,基础模型为0%。
- 模型需要自定义草案模块,但mlx-lm、LM Studio等运行时尚未支持。
- NVIDIA NIM默认将上下文限制为8,192 token,阻止Hermes Agent等代理框架运行。
- 目标用户:拥有RTX 4090/5090 GPU的开发者及双向生成领域的研究人员。
KeyAudit 数据视角
📊 KeyAudit data: Base historical leak records: 1038616