K

KeyAudit

· ·defi-exploit·audit-finding·infrastructure

DeepSeek-R1幻觉率14.3%引发加密AI Agent担忧

DeepSeek-R1是深度求索推出的推理模型,其幻觉率高达14.3%,是前代非推理模型DeepSeek-V3(3.9%)的近四倍。Vectara通过HHEM 2.1基准和Google FACTS方法验证,发现R1倾向于“过度帮助”,在回答中增添未出现在源文本中的细节,即使这些细节本身正确,也构成幻觉。这一问题对加密AI Agent代币尤为严重,该类别最近30天内市值增长约39.4%,总市值超5.76亿美元(Virtuals Protocol等领先)。推理模型的链式思维可能放大风险:一个早期幻觉将污染后续所有行动。Meta首席AI科学家Yann LeCun认为自回归LLM架构本身缺乏世界模型,而其他实验室则相信通过检索增强和微调可降低幻觉率。对于加密开发者,实际应对是加入验证步骤或使用更保守的小模型进行金融操作。14.3%与3.9%的差距可能决定AI Agent代币是提供可靠产品还是空头承诺。

关键事实

  • DeepSeek-R1在Vectara HHEM 2.1基准中幻觉率14.3%,是V3(3.9%)的近4倍。
  • R1倾向于“过度帮助”,添加不存在的细节,是链式思维训练的副作用。
  • 加密AI Agent代币如VIRTUAL、AI16Z、AIXBT依赖LLM进行交易和链上操作。
  • 推理链早期的单一幻觉会污染后续所有行动步骤。
  • 学界对自回归LLM能否彻底消除幻觉存在分歧。

KeyAudit 数据视角

📊 KeyAudit data: TON historical leak records: 0

← 回到列表