K

KeyAudit

· ·infrastructure·mev

小米在万亿参数模型上实现每秒1000 tokens,使用商用GPU

小米与推理合作伙伴TileRT合作,在万亿参数旗舰模型MiMo-V2.5-Pro-UltraSpeed上实现了超过每秒1000个tokens(演示中峰值接近1200)。这一里程碑是在标准8-GPU商用节点上实现的,而非定制芯片,这与依赖专用硬件的Cerebras和Groq等竞争对手形成对比。速度提升源于两项关键技术:仅应用于专家层的FP4量化(减少内存占用,同时保持近乎零的质量损失),以及DFlash推测解码,该技术一次性提出整个token块,而非逐个进行。推理引擎TileRT使计算管线持续驻留在GPU中,避免了额外开销。在编程基准测试中,MiMo-V2.5-Pro与Claude Opus相当,而UltraSpeed以标准MiMo费率三倍的价格提供约十倍于标准模型的生成速度。有限API试用期为6月9日至23日,优先考虑企业开发人员。FP4-DFlash检查点已在Hugging Face上开源。这一突破改变了在商用硬件上部署大规模AI推理的经济性。

关键事实

  • 小米MiMo-V2.5-Pro-UltraSpeed在标准8-GPU节点上实现万亿参数模型每秒超过1000 tokens。
  • FP4量化仅应用于专家层,减少内存占用且质量损失近乎为零。
  • DFlash推测解码一次性提出整个token块,平均接受8个中的6.3个。
  • TileRT推理引擎使计算管线持续驻留GPU,消除开销。
  • 有限API试用期6月9日至23日;FP4-DFlash检查点在Hugging Face开源。

KeyAudit 数据视角

📊 KeyAudit data: TON historical leak records: 672146

← 回到列表