AI越狱:威胁模型安全的猫鼠游戏
AI越狱是指编写提示词以绕过ChatGPT、Claude、Gemini等模型安全护栏的行为。该概念源自iPhone越狱,于2022年底通过'DAN'(Do Anything Now)提示词引入AI领域。技术手段包括角色扮演、随机大小写、以及投毒数据集——研究人员发现仅250份投毒文档就能对高达130亿参数的模型植入后门。最著名的越狱者Pliny the Liberator在每次主要模型发布后数小时内便能破解,入选《时代》2025年AI百人榜。他的GitHub仓库L1B3RT4S成为社区参考手册。越狱之所以重要,是因为它暴露了真实漏洞:2025年1月,拉斯维加斯一名炸弹客使用ChatGPT研究爆炸物。然而批评者认为,大部分有害信息已在谷歌上可获取,安全措施反而可能降低模型性能而不提升安全性。Anthropic等公司正在开发防御手段,例如Constitutional Classifiers,在测试中将成功越狱率从86%降至4.4%,但增加了计算成本。这一领域持续演进,新攻击包括通过投毒文档植入后门和高级提示工程。
关键事实
- AI越狱绕过ChatGPT、Claude、Gemini等模型的安全训练。
- Pliny the Liberator数小时内破解主要模型;入选《时代》AI百人榜。
- 技术包括角色扮演、随机大小写、投毒数据集;250份文档可植入后门。
- 批评者认为有害信息已在谷歌上;安全措施可能损害模型性能。
- Anthropic的Constitutional Classifiers将越狱成功率从86%降至4.4%但增加成本。