2026-05-20 · 来源: Decrypt Security ·audit-finding·infrastructure

Datadog基准测试显示AI模型在生产事故分析中不及人类工程师

Datadog与卡内基梅隆大学发布了ARFBench，这是首个完全基于真实生产事故构建的AI基准测试。该测试利用从工程师Slack线程中提取的63次实际宕机数据，包含750道选择题，覆盖142个监控指标和538万个数据点。问题分为三个级别：第一级检测异常，第二级识别发生时间和严重程度，最难的第3级需要跨指标推理。GPT-5以62.7%的准确率领先现有AI模型，但领域专家达到72.7%，即使非专家也达到69.7%。在第3级问题上，GPT-5的F1分数降至47.5%。Datadog的混合模型Toto结合Qwen3-VL 32B以63.9%准确率位居排行榜首位。关键发现是AI和人类具有互补的错误分布，重叠极少。一个总能在AI和人类之间选择更优答案的理论模型-专家神谕达到87.2%的准确率，为人类与AI协作事故响应设定了上限。该基准测试已在Hugging Face上开放。

关键事实

ARFBench基于63个真实生产事故和750道验证题构建。
GPT-5以62.7%准确率领先AI模型，但低于领域专家的72.7%。
Toto-Qwen3混合模型以63.9%准确率超越GPT-5。
AI与人类错误几乎不重叠，可实现协作。
理论人机神谕准确率达87.2%。

阅读原文 →

Datadog基准测试显示AI模型在生产事故分析中不及人类工程师

关键事实

相关情报