Anthropic 为《克劳德寓言 5》的秘密审查制度道歉，但修复有一个问题

Decrypt 以太坊 2026-06-12 06:32:06 1 阅读

Anthropic 在眨眼之前花了大约 48 个小时成为 AI 行业本周的恶棍。

该公司本周推出了《克劳德寓言 5》，因其 319 页系统卡中埋藏的安全措施而立即遭到强烈反对：该模型是该公司新 Mythos 类中的第一个模型，它会秘密降低其对怀疑正在构建竞争性 AI 模型的用户的响应 — 没有警告，没有后备消息，只是悄悄地变得更糟输出。到了周四，Anthropic 已经道歉了。

We’re rolling out changes to make Fable 5’s safeguards for frontier LLM development visible.

Starting this week, flagged requests will visibly fall back to Opus 4.8—the same as our safeguards for cyber and bio. You will see this every time it happens. On the API, any flagged…

— ClaudeDevs (@ClaudeDevs) June 11, 2026

“隐形防护措施的目标范围更窄，使我们能够快速发货，且误报率极低。出于这个原因，我们采用了隐形防护措施，而这是错误的权衡，”该公司在 X 上发布。“您应该了解我们所采取的防护措施以及原因。”

“我们很抱歉没有取得正确的平衡。”

从本周开始，标记的请求将明显路由到功能较弱的 Claude Opus 4.8 模型，而不是默默地提供降级的《神鬼寓言》输出。当请求被拒绝时，API 用户将收到明确的原因。 Anthropic 表示服务器端后备通知将在未来几天内推出。

实际发生了什么

对于非技术读者来说，这就是争议的实际内容。 Claude Fable 5 已经为网络安全和生物学研究提供了明显的保护措施——如果您提出的问题触发了这些过滤器，您会收到一条通知，表明您的请求将被重新路由到旧版 Opus 4.8 型号。你知道有些事情发生了变化。您可以调整提示或使用不同的工具。

但是，一些生物研究人员指出，这些保护措施过于极端。

&amp;amp;amp;lt;span style="显示：内联块；宽度：0px；溢出：隐藏；行高：0；” data-mce-type="bookmark" class="mce_SELRES_start"&amp;amp;gt;&amp;amp;lt;/span&amp;amp;gt;

然而，法学硕士发展保障措施的运作方式有所不同。如果《神鬼寓言 5》检测到你正在研究诸如预训练人工智能系统、构建分布式训练基础设施或设计机器学习芯片之类的事情，该模型就会通过即时修改、转向向量或参数调整来默默地改变自己的行为，从而在不告诉你的情况下给你一个更糟糕的答案。你会得到回应。它只是不是来自您付费购买的《神鬼寓言 5》。

《神鬼寓言 5》被宣传为 Anthropic 最强大的 Mythos 级模型的公众形象，使用它进行合法机器学习工作的研究人员无法知道他们的结果是否受到污染。无论你的假设是错误的还是模型被悄悄告知表现不佳，失败的实验看起来都是一样的。这正是导致人工智能研究界陷入全面崩溃模式的可重复性问题。

问题是分类器不够精确。在看到他们的 GPU 推理研究被标记后，人工智能研究公司 SemiAnalysis 是第一批公开谴责他们的公司之一。

BREAKING NEWS: Anthropic's latest model will NOT help you if it thinks your ML research/ML engineering is interesting, and/or will secretly degrade its IQ so that the average engineer won't notice. We are already seeing Anthropic's latest model's moderation filters our GPU… pic.twitter.com/9sa95cCSvS

— SemiAnalysis (@SemiAnalysis_) June 9, 2026

修复中的问题

Anthropic 的逆转伴随着直接承认它正在接受的权衡。使保护措施可见使它们更容易被绕过，这意味着分类器必须撒下更广泛的网才能保持有效。

在公司调整系统时，更多的误报（合法的机器学习工作被捕获并重新路由）即将出现。 Anthropic 表示正在努力“尽快”减少误报，但没有提供时间表。

该公司还对其生物学和网络安全分类器进行了同样的清理，这些分类器曾因标记无害的研究提示而受到抱怨。

也就是说，剩下的问题是 Anthropic 并没有放弃此类限制，而只是让它们变得可见。对于那些认为这些限制本身是错误的人来说，周四的道歉只是部分修复。《神鬼寓言 5》在 Pro、Max、Team 和 Enterprise 套餐中保持免费直至 6 月 22 日，之后将转为仅使用 API 使用积分