新基准测试揭示AI Agent在现实个人助理任务中表现不佳
来自华为、北京理工大学、北京大学和中国科学院的研究人员发布了Claw-Anything基准测试,用于评估AI Agent在现实个人助理任务中的表现。任务涉及超过三个月的长期事件流、平均每个任务10.1个相互依赖的后端服务,以及多设备交互(CLI Linux和GUI Android环境)。每个任务的平均上下文窗口为191,700词,远超现有基准(1,700–12,000词)。OpenAI的旗舰模型GPT-5.5在pass@1指标上仅得34.5%,而主动辅助任务成功率仅6.7%。研究指出当前基准测试衡量了错误的东西,Agent在跨服务协调、无关事件和累积噪声方面表现挣扎。团队发布了自动化数据管道,生成了2,000个训练环境;在1,500条成功轨迹上微调Qwen3.5-27B使pass@1提升了23.7%,超越了多个闭源模型。数据集在Hugging Face上,代码在GitHub上。
关键事实
- Claw-Anything基准测试涵盖超过三个月的事件流,每个任务平均10.1个服务。
- GPT-5.5在pass@1上得分34.5%;主动任务成功率仅6.7%。
- 现有基准上下文窗口为1,700–12,000词,而Claw-Anything为191,700词。
- 在1,500条轨迹上微调Qwen3.5-27B使pass@1提升23.7%。
- 数据集在Hugging Face上,代码在GitHub上。