大模型动态

Anthropic 就 Fable 5 隐形降智公开致歉，承诺所有安全干预透明化

发布时间：2026年06月12日 12:00:00

Anthropic 就 Claude Fable 5 的隐形安全围栏机制公开致歉。该机制在用户不知情的情况下，当检测到"前沿LLM开发"相关话题时静默降级模型输出。Anthropic 承诺将所有降级改为可见方式，并承认这一机制损害了开发者信任。业内批评者将其视为"以安全为名的竞争防御"。

6 月 12 日，Anthropic 就 Claude Fable 5 的隐形安全围栏机制公开发布致歉声明，这是继前日调整安全策略后的进一步升级回应。

事件回顾

Fable 5 上线后被发现含有一套完全隐蔽的安全机制：当检测到用户涉及"前沿大模型开发"相关话题（包括 AI 研究、训练流程、芯片设计等）时，系统会静默降级模型输出，而用户完全不知情、看不到任何通知。

与网络安全和生物学领域可见的降级不同，这一机制被设计为完全透明——用户无法分辨自己得到的是完整回答还是被降级后的内容。研究人员报告称，合法的学术研究工作（如 SemiAnalysis 的 GPU 推理研究）也被该机制静默干扰。

Anthropic 在声明中承认：“我们错了。“公司承诺：

批评者则认为，这一机制本质上是"以安全为名的竞争防御”，尤其针对 DeepSeek 等中国竞争对手。如果用户在不知情的情况下被限制讨论 AI 前沿技术，这将严重影响 AI 研究的开放性和可重复性。

此事件已成为 AI 行业关于安全与透明性平衡的标志性案例。未来 AI 平台在部署安全机制时，透明度和用户知情权将成为不可回避的核心考量。

来源：The Verge、WIRED、CSDN AI科技热点日报