K

KeyAudit

· ·audit-finding·infrastructure

Datadog基准测试显示AI模型在生产事故分析中不及人类工程师

Datadog与卡内基梅隆大学发布了ARFBench,这是首个完全基于真实生产事故构建的AI基准测试。该测试利用从工程师Slack线程中提取的63次实际宕机数据,包含750道选择题,覆盖142个监控指标和538万个数据点。问题分为三个级别:第一级检测异常,第二级识别发生时间和严重程度,最难的第3级需要跨指标推理。GPT-5以62.7%的准确率领先现有AI模型,但领域专家达到72.7%,即使非专家也达到69.7%。在第3级问题上,GPT-5的F1分数降至47.5%。Datadog的混合模型Toto结合Qwen3-VL 32B以63.9%准确率位居排行榜首位。关键发现是AI和人类具有互补的错误分布,重叠极少。一个总能在AI和人类之间选择更优答案的理论模型-专家神谕达到87.2%的准确率,为人类与AI协作事故响应设定了上限。该基准测试已在Hugging Face上开放。

关键事实

  • ARFBench基于63个真实生产事故和750道验证题构建。
  • GPT-5以62.7%准确率领先AI模型,但低于领域专家的72.7%。
  • Toto-Qwen3混合模型以63.9%准确率超越GPT-5。
  • AI与人类错误几乎不重叠,可实现协作。
  • 理论人机神谕准确率达87.2%。

← 回到列表