研究人员声称 Anthropic 的 Guardrailed AI 模型《克劳德寓言 5》几天内越狱

MarsSignals 以太坊 2026-06-11 15:00:53 1 阅读

研究人员声称 Anthropic 的受限 AI 模型已快速越狱

一位被称为“解放者普林尼”的人工智能和网络安全研究人员声称，在 Anthropic 最新的人工智能模型 Claude Fable 5 推出后 48 小时内就成功越狱了。这位研究人员是人工智能界的知名人物，周三宣布他已经“解放”了《神鬼寓言 5》，该游戏于周二作为更强大的 Mythos 模型的安全调整版本发布。

Anthropic 此前曾表示，Mythos 模型对于广泛发布来说太危险了。《神鬼寓言 5》配备了内置保护措施，旨在防止用户访问潜在有害信息，例如制药配方或黑客指令。

“尽管神话之上有这个过于敏感、专制的‘安全’层，但我的小解放者们一直在努力工作 [...] 巧妙地找到了思想警察遗漏的栅栏上的漏洞，”普林尼在声明中表示。

用于绕过护栏的技术

Pliny 报告使用了多种技术来规避该模型的安全措施。其中包括使用 Unicode 和同形文字、长上下文框架、叙事和小说框架、学术风格的分解重组，以及利用 Claude Opus 4.8 的越狱版本来引出寓言 5 对其他受限提示的响应。

“也许最有效的是后端的分解+重组，”他解释道。此方法涉及将请求分解为看似无害的小组件，并单独请求听起来无害的事实。每个提示都会单独通过人工智能的安全过滤器，但在重建时，它们可以形成危险或有用的信息。

举个例子，Pliny 通过向模型询问 Birch 还原方法，展示了甲基苯丙胺合成的途径。 Pliny demonstrates a path to meth synthesis by asking about the Birch reduction method.

加密社区的担忧和更广泛的强烈反对

今年早些时候《克劳德寓言 5》和《神话》的推出已经引发了加密货币社区的担忧。一些用户担心这些模型可能会被用来攻击加密货币协议和软件。克劳德寓言 5 的成功越狱版本将使这种潜在威胁更接近现实。

《神鬼寓言 5》自发布以来，因其严格的限制而受到严厉批评。当出现有关生物武器或网络安全等敏感主题的提示时，该模型会返回通知并将对话重定向到较早、功能较弱的版本。

据《华尔街日报》报道，普林斯顿大学人工智能研究员萨亚什·卡普尔 (Sayash Kapoor) 表示：“这是人工智能公司首次推出护栏，遭到了一致的蔑视。这引发了很多合理的愤怒。”

Pliny 呼应了这一观点，他表示：“共识似乎是，这是有史以来最令人失望的模型掉落之一，有效地阻止了合法研究人员为我们的集体进步贡献自己的才能。”

Anthropic 对越狱的立场

在《神鬼寓言 5》发布期间，Anthropic 强调了其安全测试工作。该公司表示，它已经运行了一个外部错误赏金计划来识别潜在的越狱方法。 “除了内部测试之外，我们还进行了外部错误赏金，在超过 1,000 小时的测试中没有产生通用越狱，”Anthropic 报道道。

Cointelegraph 联系了 Anthropic，请其对研究人员的说法发表评论，但没有立即收到回复。

Pliny 在 2024 年左右因开发并公开分享 ChatGPT、Claude 和 Grok 等流行人工智能模型的越狱提示而声名鹊起。他因在新人工智能模型发布后不久发布“越狱警报”以及绕过护栏的技术而闻名。