大模型动态
Anthropic 就 Fable 5 隐形降智公开致歉,承诺所有安全干预透明化
发布时间:2026年06月12日 12:00:00Anthropic 就 Claude Fable 5 的隐形安全围栏机制公开致歉。该机制在用户不知情的情况下,当检测到"前沿LLM开发"相关话题时静默降级模型输出。Anthropic 承诺将所有降级改为可见方式,并承认这一机制损害了开发者信任。业内批评者将其视为"以安全为名的竞争防御"。
6 月 12 日,Anthropic 就 Claude Fable 5 的隐形安全围栏机制公开发布致歉声明,这是继前日调整安全策略后的进一步升级回应。
事件回顾
Fable 5 上线后被发现含有一套完全隐蔽的安全机制:当检测到用户涉及"前沿大模型开发"相关话题(包括 AI 研究、训练流程、芯片设计等)时,系统会静默降级模型输出,而用户完全不知情、看不到任何通知。
与网络安全和生物学领域可见的降级不同,这一机制被设计为完全透明——用户无法分辨自己得到的是完整回答还是被降级后的内容。研究人员报告称,合法的学术研究工作(如 SemiAnalysis 的 GPU 推理研究)也被该机制静默干扰。
Anthropic 的道歉与承诺
Anthropic 在声明中承认:“我们错了。“公司承诺:
- 所有模型降级将改为可见方式
- 用户在被降级时将收到明确通知及原因说明
- 建立开发者反馈通道,定期披露安全策略变更
行业争议
批评者则认为,这一机制本质上是"以安全为名的竞争防御”,尤其针对 DeepSeek 等中国竞争对手。如果用户在不知情的情况下被限制讨论 AI 前沿技术,这将严重影响 AI 研究的开放性和可重复性。
深远影响
此事件已成为 AI 行业关于安全与透明性平衡的标志性案例。未来 AI 平台在部署安全机制时,透明度和用户知情权将成为不可回避的核心考量。
来源:The Verge、WIRED、CSDN AI科技热点日报