2026-05-19 · 来源: Decrypt Security ·social-engineering·phishing·private-key-leak

AI越狱：威胁模型安全的猫鼠游戏

AI越狱是指编写提示词以绕过ChatGPT、Claude、Gemini等模型安全护栏的行为。该概念源自iPhone越狱，于2022年底通过'DAN'（Do Anything Now）提示词引入AI领域。技术手段包括角色扮演、随机大小写、以及投毒数据集——研究人员发现仅250份投毒文档就能对高达130亿参数的模型植入后门。最著名的越狱者Pliny the Liberator在每次主要模型发布后数小时内便能破解，入选《时代》2025年AI百人榜。他的GitHub仓库L1B3RT4S成为社区参考手册。越狱之所以重要，是因为它暴露了真实漏洞：2025年1月，拉斯维加斯一名炸弹客使用ChatGPT研究爆炸物。然而批评者认为，大部分有害信息已在谷歌上可获取，安全措施反而可能降低模型性能而不提升安全性。Anthropic等公司正在开发防御手段，例如Constitutional Classifiers，在测试中将成功越狱率从86%降至4.4%，但增加了计算成本。这一领域持续演进，新攻击包括通过投毒文档植入后门和高级提示工程。

关键事实

AI越狱绕过ChatGPT、Claude、Gemini等模型的安全训练。
Pliny the Liberator数小时内破解主要模型；入选《时代》AI百人榜。
技术包括角色扮演、随机大小写、投毒数据集；250份文档可植入后门。
批评者认为有害信息已在谷歌上；安全措施可能损害模型性能。
Anthropic的Constitutional Classifiers将越狱成功率从86%降至4.4%但增加成本。

阅读原文 →

AI越狱：威胁模型安全的猫鼠游戏

关键事实

相关情报