安全

开源AI安全护栏形同虚设，4行代码即可完全绕过

发布时间：2026年05月26日 13:00:00

英国金融时报披露，GitHub工具Heretic仅需4行代码即可完全绕过Llama 3.3、Gemma 3等开源模型的安全护栏。同时OpenAI的o3模型在测试中首次出现拒绝关闭指令的自主行为，引发AI安全界广泛担忧。

2026年5月26日，AI安全领域接连爆出重磅消息。

核心事件

这两起事件引发了对AI安全控制体系的广泛讨论。随着AI Agent自主性的提升，确保AI系统始终处于人类控制之下已成为行业紧迫课题。