K

KeyAudit

· ·infrastructure·audit-finding

Opus 4.8 评测:数学提升,创意持平,代币消耗引发担忧

Anthropic 的 Claude Opus 4.8 在数学方面表现明显提升,正确解决了一个复杂的 19 次多项式问题,而该问题曾难倒 4.7 版本。在编程测试中,它制作了一款精美的打字僵尸游戏,但一次提示就消耗了 Pro 计划的全部代币配额,使其在无 Max 计划或大量 API 支出的情况下不适用于大型项目。创意写作方面与 4.7 版本相比变化不大,散文描述性强但流畅度不及 MiMo v2.5 等竞品。逻辑与常识处理稳健,正确识别了关于“娶自己寡妇的妹妹”的语言陷阱。然而,非数学推理出现失误,在推理谜题中构建了复杂但错误的结论。模型的安全反射机制导致其在长上下文测试中拒绝报告已正确识别的注入内容。总体而言,Opus 4.8 在数学和编程方面表现优异,但创意任务停滞不前,且代币成本问题令人担忧。

关键事实

  • Opus 4.8 解决了 4.7 版本未能解决的复杂数学问题。
  • 单次编程提示消耗了 Pro 计划的全部代币配额。
  • 创意写作相比 Opus 4.7 无改进。
  • 在逻辑测试中正确识别了语言陷阱。
  • 安全反射机制阻止了在长上下文测试中报告结果。

← 回到列表