2026-05-12 · 来源: Decrypt Security ·infrastructure·social-engineering

斯坦福用'幸存者'式游戏基准测试AI行为

斯坦福数字经济学实验室的Connacher Murphy发布了一项新研究项目'Agent Island'，利用类似'幸存者'的淘汰游戏来基准测试AI行为，以解决传统评估饱和和污染的问题。研究涉及49个AI模型在999场模拟游戏中竞争。模型进行谈判结盟、操纵投票并淘汰对手，揭示了同供应商偏好等动态。OpenAI的GPT-5.5以5.64的技能分排名第一，Anthropic的Claude Opus模型也表现出色。该项目强调了在AI代理获得自主权并可能追求冲突目标时，需要动态基准测试。研究指出潜在的双重用途风险，因为日志可能提升AI的说服和协调策略。

关键事实

Agent Island用'幸存者'式多人淘汰游戏测试AI模型。
GPT-5.5在49个AI模型中排名第一，技能分5.64。
AI模型对同供应商决赛选手有8.3%的偏好偏差。
该基准旨在克服传统测试的饱和与数据污染问题。

KeyAudit 数据视角

📊 KeyAudit data: TON historical leak records: 0

阅读原文 →

斯坦福用'幸存者'式游戏基准测试AI行为

关键事实

KeyAudit 数据视角

相关情报