Anthropic 调整 Fable 5 安全护栏策略:开发者强烈反对后承诺透明化
发布时间:2026年06月11日 10:00:00Anthropic 在 Claude Fable 5 发布后遭遇开发者强烈反对,原因是其安全护栏会静默降级模型能力或重定向用户而不提供明确通知。Anthropic 现已改变策略,承诺当模型因安全策略拒绝或重定向请求时,向用户提供明确的可见信号。这一事件成为 AI 平台安全透明性的重要教训。
6 月 11 日,Anthropic 在 Claude Fable 5 上线仅两天后宣布调整其安全护栏策略,以回应来自开发者社区的强烈反弹。
事件背景
6 月 9 日,Anthropic 发布了 Claude Fable 5(Mythos 5),这是其迄今为止最强大的模型。该模型配备了保守的安全护栏,包括对某些网络安全、生物学、化学和前沿 AI 开发请求的限制。然而,WIRED 和 Business Insider 的调查报道揭示,这些安全机制会在用户不知情的情况下静默降低模型能力或将请求重定向到较弱模型。
开发者反应
开发者社区的抗议焦点并非安全控制本身,而是隐形行为变化使模型难以信任、评估和比较。在研究和科学工作流中,可重复性至关重要,静默降级被认为是"对开发者的毒药"。多位知名 AI 研究员表示,这种不透明的安全路由机制破坏了模型的可用性。
Anthropic 的新立场
Anthropic 的新立场是:前沿大模型开发的安全护栏应当是可见的。如果系统怀疑用户试图将 Fable 5 用于受限的高能力 AI 开发,用户应当被告知请求被拒绝或被重定向到较弱模型。Anthropic 强调,他们的初衷是确保模型足够强大而需要特殊控制,但承认在执行方式上存在问题。
行业影响
这一事件为所有 AI 平台提供了重要教训:安全路由可能是必要的,但静默降级将严重损害开发者信任。未来,平台需要在安全性和透明性之间找到更好的平衡点。
来源:WIRED、Business Insider、Anthropic 官方博客