2026-06-10 · 来源: Decrypt Security ·infrastructure·mev

小米在万亿参数模型上实现每秒1000 tokens，使用商用GPU

小米与推理合作伙伴TileRT合作，在万亿参数旗舰模型MiMo-V2.5-Pro-UltraSpeed上实现了超过每秒1000个tokens（演示中峰值接近1200）。这一里程碑是在标准8-GPU商用节点上实现的，而非定制芯片，这与依赖专用硬件的Cerebras和Groq等竞争对手形成对比。速度提升源于两项关键技术：仅应用于专家层的FP4量化（减少内存占用，同时保持近乎零的质量损失），以及DFlash推测解码，该技术一次性提出整个token块，而非逐个进行。推理引擎TileRT使计算管线持续驻留在GPU中，避免了额外开销。在编程基准测试中，MiMo-V2.5-Pro与Claude Opus相当，而UltraSpeed以标准MiMo费率三倍的价格提供约十倍于标准模型的生成速度。有限API试用期为6月9日至23日，优先考虑企业开发人员。FP4-DFlash检查点已在Hugging Face上开源。这一突破改变了在商用硬件上部署大规模AI推理的经济性。

关键事实

小米MiMo-V2.5-Pro-UltraSpeed在标准8-GPU节点上实现万亿参数模型每秒超过1000 tokens。
FP4量化仅应用于专家层，减少内存占用且质量损失近乎为零。
DFlash推测解码一次性提出整个token块，平均接受8个中的6.3个。
TileRT推理引擎使计算管线持续驻留GPU，消除开销。
有限API试用期6月9日至23日；FP4-DFlash检查点在Hugging Face开源。

KeyAudit 数据视角

📊 KeyAudit data: TON historical leak records: 672146

阅读原文 →

小米在万亿参数模型上实现每秒1000 tokens，使用商用GPU

关键事实

KeyAudit 数据视角

相关情报