Inception Labs推出Mercury 2扩散语言模型:每秒1000 token,AIME得分90%
Inception Labs于周四推出Mercury 2,声称这是世界上最快推理语言模型。其生成速度约为每秒1000 token,远超Anthropic的Claude Haiku 4.5 Reasoning(每秒89 token)和OpenAI的GPT-5 Mini(每秒71 token)。该速度与Google的DiffusionGemma相当。两者均采用扩散技术:用随机占位符填充文本块,再通过多次并行迭代去除噪声,不同于逐步逐token生成的顺序模型。然而,Mercury 2在关键基准测试中显著优于DiffusionGemma。在AIME 2026测试中,Mercury 2得分90%,而DiffusionGemma得分为69.1%。在GPQA博士级科学基准上,两者几乎持平(77% vs 73.2%)。Google自身文档也承认DiffusionGemma在各方面落后于标准Gemma 4。Augment Code报告称,切换至Mercury 2后,延迟降低82%,成本削减90%。Inception Labs由斯坦福教授Stefano Ermon创立,他是基于分数的扩散技术先驱之一。该公司从Nvidia风投部门、Andrew Ng和Andrej Karpathy处筹集了5000万美元。尽管在速度敏感型任务中前景广阔,但Mercury 2是闭源权重API模型,扩散LLM生态系统仍在发展之中。
关键事实
- Mercury 2每秒生成约1000 token,远超Claude Haiku 4.5(89/s)和GPT-5 Mini(71/s)。
- 在AIME 2026测试中,Mercury 2得分90%,DiffusionGemma为69.1%。
- Augment Code报告使用Mercury 2后延迟降低82%,成本削减90%。
- Mercury 2是闭源权重API模型;DiffusionGemma为Hugging Face上的开放权重。
- Inception Labs从Nvidia、Andrew Ng和Andrej Karpathy处筹集5000万美元。
KeyAudit 数据视角
📊 KeyAudit data: Base historical leak records: 1516321