2026-05-29 · 来源: Decrypt Security ·audit-finding·infrastructure

新基准测试揭示AI Agent在现实个人助理任务中表现不佳

来自华为、北京理工大学、北京大学和中国科学院的研究人员发布了Claw-Anything基准测试，用于评估AI Agent在现实个人助理任务中的表现。任务涉及超过三个月的长期事件流、平均每个任务10.1个相互依赖的后端服务，以及多设备交互（CLI Linux和GUI Android环境）。每个任务的平均上下文窗口为191,700词，远超现有基准（1,700–12,000词）。OpenAI的旗舰模型GPT-5.5在pass@1指标上仅得34.5%，而主动辅助任务成功率仅6.7%。研究指出当前基准测试衡量了错误的东西，Agent在跨服务协调、无关事件和累积噪声方面表现挣扎。团队发布了自动化数据管道，生成了2,000个训练环境；在1,500条成功轨迹上微调Qwen3.5-27B使pass@1提升了23.7%，超越了多个闭源模型。数据集在Hugging Face上，代码在GitHub上。

关键事实

Claw-Anything基准测试涵盖超过三个月的事件流，每个任务平均10.1个服务。
GPT-5.5在pass@1上得分34.5%；主动任务成功率仅6.7%。
现有基准上下文窗口为1,700–12,000词，而Claw-Anything为191,700词。
在1,500条轨迹上微调Qwen3.5-27B使pass@1提升23.7%。
数据集在Hugging Face上，代码在GitHub上。

阅读原文 →

新基准测试揭示AI Agent在现实个人助理任务中表现不佳

关键事实

相关情报