防黑客还是养虎为患？Anthropic 扩大顶级网络安全模型 Mythos 权限，新增 150 家合作机构

# 防黑客还是养虎为患？Anthropic 扩大顶级网络安全模型 Mythos 权限，新增 150 家合作机构

近日，Anthropic 宣布将其专为网络安全领域打造的顶级 AI 模型 **Mythos** 的使用权限进一步扩大，新增 150 家合作机构，涵盖金融机构、关键基础设施运营商以及部分政府安全部门。这一举措在业界引发激烈讨论：Mythos 究竟是抵御网络攻击的利器，还是可能被反向利用、养虎为患的隐患？

## 一、Mythos 的能力与初衷

Mythos 是 Anthropic 基于其“宪法式 AI”框架训练的高度专业化模型，擅长识别零日漏洞、模拟高级持续性威胁（APT）行为，并在毫秒级内生成防御策略。相较于通用大模型，Mythos 被刻意设计了 **“伦理隔离层”**：它能够自动拒绝对攻击性代码、社会工程话术的生成请求，同时在与人类安全分析师交互时保留完整的审计轨迹。Anthropic 的本意是让 Mythos 成为“白帽”的超级助手，通过扩大合作机构覆盖更多真实攻防场景，提升整体行业的防御水位。

## 二、防黑客：降维打击的防御优势

从实际效果看，Mythos 在部分试点机构中展现了惊人的防御效率。例如，在一家大型银行的渗透测试中，Mythos 在 3 分钟内发现了 12 个此前未被检测出的逻辑漏洞，并自动生成修补方案。对于传统依赖人工安全运营中心（SOC）的团队而言，这种速度等于将攻击者的时间窗口压缩至近乎为零。Anthropic 强调，新增的 150 家机构均经过严格的合规审查，且 Mythos 的权限被限制在“只读+建议”模式，无法直接修改系统配置或部署代码，从技术层面降低了误用风险。

## 三、养虎为患：双重用途的深层忧虑

然而，批评者指出，权限扩大恰恰放大了 Mythos 的 **“双重用途困境”**。即便模型本身拒绝生成恶意内容，高级攻击者仍可通过“提示注入”或“逆向思维”诱导其输出间接可武器化的信息——例如，让模型分析某协议的内在弱点并用自然语言描述，攻击者据此编写 exploit 代码。更令人担忧的是，150 家合作机构中包括部分受政治争议的外国安全部门，一旦这些机构的人员或系统遭到渗透，Mythos 的训练数据、推理逻辑甚至微调权重都可能被泄露。**“防黑客”与“养虎为患”之间，悬着一根由信任与监管共同制成的细绳。**

## 四、寻找平衡点：技术治理的紧迫性

Anthropic 的难题，实际上是整个 AI 安全行业正在面对的缩影。扩大权限是获取真实世界反馈、完善模型的必经之路，但每增加一个合作方，风险暴露面就呈指数级增长。或许真正的出路不在于“收紧”或“放开”的二元选择，而在于建立更细粒度的 **模型行为公证层**：让每一次推理请求都附带不可篡改的意图签名，同时为模型输出添加动态水印，以便追溯滥用链条。Anthropic 承诺将在后续版本中引入“白名单推理”机制——只有经过多方签名的请求才能触发 Mythos 的关键能力——但这项技术成熟之前，每一次权限扩张都是一场信任的豪赌。