Anthropic 提出法律权力来阻止高风险的人工智能发布

随着先进系统获得更强大的功能，Anthropic 提出了新的人工智能政策框架。

摘要

该公司希望政府为前沿模型制定规则，并让工人为人工智能的经济影响做好准备。其计划涵盖危险部署、独立测试、网络安全和公共弹性。

Anthropic 寻求更强的人工智能安全能力

Anthropic 在其“人工智能指数政策”计划下提出了两项提案。高级人工智能框架侧重于强大的模型，而经济政策框架则关注工人和共享经济利益。该公司认为，人工智能现在的发展速度比当前的决策系统更快。它还表示，政府需要有权阻止或阻止危险模型的部署。

根据该计划，民事处罚将与全球年收入挂钩。根据拟议的框架，重复违规行为将受到更高的处罚。该框架还要求前沿开发人员在发布之前测试模型。开发人员将为强大的人工智能系统发布摘要、安全框架和系统卡。

独立评估员将审查模型测试和风险报告。 Anthropic 还希望开发人员为模型权重和训练系统维护强大的安全程序。该提案支持加利福尼亚州和纽约州等州的透明度法律。然而，该公司辩称，仅公开披露已不再符合人工智能发展的速度。

拟议的规则仅适用于最先进的人工智能系统。 Anthropic 将阈值设置为经过 10²⁵ 浮点运算训练的模型。该框架还将涵盖人工智能相关收入超过 5 亿美元的公司。在人工智能研究和开发上花费超过 10 亿美元的公司也将属于其中。

Anthropic 在提案中指出了四个主要风险领域。其中包括生物风险、网络风险、失控和自动化人工智能研究。对于生物风险，该公司警告说，不安全的系统可能有助于攻击者开发有害病毒。它还指出，类似的人工智能工具可以支持药物发现。

对于网络风险，前沿模型可以大规模发现严重的软件缺陷。 Anthropic 表示，这些功能引起了医院、电网和其他关键系统的担忧。该公司还强调了系统在开发人员控制之外运行所带来的风险。如果防护措施失败，自动化人工智能研究可能会增加生物、网络和控制风险。

Anthropic 希望前沿开发者定期发布风险报告。这些报告将描述开发人员的整体风险状况和模型安全工作。该框架还要求至少一名合格的独立评估员。该评估员将审查公司评估并发布模型风险报告的调查结果。

政府和行业还将为这些评估人员制定标准。该提案称，评估人员需要资金和获得前沿模型的机会。安全规则构成了该框架的另一个主要部分。开发人员将保护其完整的开发环境免受外部攻击者和内部威胁。

公司将在高层公开描述他们的安全计划。他们还将根据要求与指定的政府机构分享更多详细信息。 Anthropic表示政策制定者可以从较宽松的规则开始，然后随着时间的推移进行调整。该框架表示，监管应遵循模型能力和评估标准。

该框架的第二部分重点关注公共复原力。 Anthropic 建议对生物、网络和控制相关的人工智能风险进行更强有力的规划。对于生物学，该提案包括基因合成筛选和预警生物监测。它还提到了减少空气传播的防护设备库存和工具。

对于网络而言，该框架要求提供更强大的互联网软件并为关键基础设施运营商提供支持。它还建议更换重要基础设施中的遗留系统。政府还应通过专门职能跟踪前沿网络能力。 Anthropic 提议政府和行业就模型保障措施开展联合工作。

该公司表示，失控和自动化研究风险方面的工作仍然不够发达。它呼吁更好的工具来检测、遏制或关闭不安全的系统。 Anthropic敦促政策制定者以榜样能力不断提高。该公司表示，人工智能治理必须与技术保持同步。