K

KeyAudit

· ·infrastructure·defi-exploit

Google 为 Gemma 4 发布多 token 预测推断器 推断速度提升 3 倍

Google 为开放模型 Gemma 4 系列发布多 token 预测(MTP)推断器,无质量损失下推断速度提升至 3 倍。该技术为推测性解码:用轻量"草稿"模型预测多个 token,主模型再行验证。

关键事实

  • Google 为 Gemma 4 发布 MTP 推断器,推断速度提升至 3 倍
  • 草稿模型预测多 token,主模型并行验证
  • 草稿器与目标模型共享 KV 缓存,减少冗余计算
  • 基准测试:Nvidia RTX Pro 6000 加速 2 倍,Apple Silicon 加速 2.2 倍
  • 已在 Hugging Face、Kaggle、Ollama 以 Apache 2.0 许可发布

KeyAudit 数据视角

📊 KeyAudit 数据库:Base 历史泄露记录:0

← 回到列表