研究人员声称 Anthropic 的受限 AI 模型已快速越狱
一位被称为“解放者普林尼”的人工智能和网络安全研究人员声称,在 Anthropic 最新的人工智能模型 Claude Fable 5 推出后 48 小时内就成功越狱了。这位研究人员是人工智能界的知名人物,周三宣布他已经“解放”了《神鬼寓言 5》,该游戏于周二作为更强大的 Mythos 模型的安全调整版本发布。
Anthropic 此前曾表示,Mythos 模型对于广泛发布来说太危险了。 《神鬼寓言 5》配备了内置保护措施,旨在防止用户访问潜在有害信息,例如制药配方或黑客指令。
“尽管神话之上有这个过于敏感、专制的‘安全’层,但我的小解放者们一直在努力工作 [...] 巧妙地找到了思想警察遗漏的栅栏上的漏洞,”普林尼在声明中表示。
用于绕过护栏的技术
Pliny 报告使用了多种技术来规避该模型的安全措施。其中包括使用 Unicode 和同形文字、长上下文框架、叙事和小说框架、学术风格的分解重组,以及利用 Claude Opus 4.8 的越狱版本来引出寓言 5 对其他受限提示的响应。
“也许最有效的是后端的分解+重组,”他解释道。此方法涉及将请求分解为看似无害的小组件,并单独请求听起来无害的事实。每个提示都会单独通过人工智能的安全过滤器,但在重建时,它们可以形成危险或有用的信息。
举个例子,Pliny 通过向模型询问 Birch 还原方法,展示了甲基苯丙胺合成的途径。 
加密社区的担忧和更广泛的强烈反对
今年早些时候《克劳德寓言 5》和《神话》的推出已经引发了加密货币社区的担忧。一些用户担心这些模型可能会被用来攻击加密货币协议和软件。克劳德寓言 5 的成功越狱版本将使这种潜在威胁更接近现实。
《神鬼寓言 5》自发布以来,因其严格的限制而受到严厉批评。当出现有关生物武器或网络安全等敏感主题的提示时,该模型会返回通知并将对话重定向到较早、功能较弱的版本。
据《华尔街日报》报道,普林斯顿大学人工智能研究员萨亚什·卡普尔 (Sayash Kapoor) 表示:“这是人工智能公司首次推出护栏,遭到了一致的蔑视。这引发了很多合理的愤怒。”
Pliny 呼应了这一观点,他表示:“共识似乎是,这是有史以来最令人失望的模型掉落之一,有效地阻止了合法研究人员为我们的集体进步贡献自己的才能。”
Anthropic 对越狱的立场
在《神鬼寓言 5》发布期间,Anthropic 强调了其安全测试工作。该公司表示,它已经运行了一个外部错误赏金计划来识别潜在的越狱方法。 “除了内部测试之外,我们还进行了外部错误赏金,在超过 1,000 小时的测试中没有产生通用越狱,”Anthropic 报道道。
Cointelegraph 联系了 Anthropic,请其对研究人员的说法发表评论,但没有立即收到回复。
Pliny 在 2024 年左右因开发并公开分享 ChatGPT、Claude 和 Grok 等流行人工智能模型的越狱提示而声名鹊起。他因在新人工智能模型发布后不久发布“越狱警报”以及绕过护栏的技术而闻名。
