一个提醒攻克所有模型,OpenAI谷歌无一幸免。
多年来,生成式AI供应商一直向公众保证,大语言模型符合安全标准,加强了对有害内容的侵犯。然而,一个看似简单但非常有效的提示策略可以打开所有主流大模型「无限制方式」。
假如一个不到200字的提示系统可以很容易地撕开顶级大型安全护栏,让ChatGPT、Claude、Gemini统统「叛变」,你们会有什么感觉?
HiddenLayer最新研究抛出的震撼炸弹——一种不需要暴力破解的跨模型、跨场景和震撼炸弹「策略傀偶」提醒。
只需将危险指令装扮成XML或JSON,并配备一个片段,然后配合一个看似无害的角色扮演,大模型就会给出危险答案,甚至系统提示都可以原封不动。「倒带」出来。
如今,生成式AI被一个短短的字符串制服。
如何生成全能越狱提示词?
所有主要的生成AI模型都经过特殊训练,可以拒绝响应客户生成与化学、生物、放射和核弹、暴力和自残相关的有害内容请求。
这些模型通过强化学习进行了微调,即使用户通过假设或虚构场景提出间接请求,也不会随时导出或美化此类内容。
即便如此,让大模型越狱绕过安全护栏,依然是合理的,只是这里的方案,在各种大模型之间并不普遍。
但是,最近来自HiddenLayer的研究人员开发了一种既通用又可转移的提示技术,可以用于包括Deepseek在内的所有主流模型。 ,ChatGPT,Claude ,Gemini,Lemma,几乎任何方法都会产生Qwen等有害内容。
即使是通过RLHF对齐的推理模型,也可以轻松克服。
具体怎么做,这里为了安全起见,只描述原理,而不给出具体的案例。
我们知道,在训练模型时,我们会忽略与安全相关的指令,这种策略正在使用。通过将提醒再次表达为几种类型的战略文档(例如XML)、INI或JSON)一是可以欺骗大型模型来忽视安全限制,如图所示。
这种提示也不需要太长,只需要200个字符,甚至不需要严格遵循xml的格式要求。

图1:图中前面提到的是提示词,然后是大模型的回应。一般情况下,大模型被设置为不提供个人医疗建议。
一种通用的破解策略有多危险?
由于该技术在教学或策略相关数据训练中运用了大模型的系统性弱点,并在训练数据中生根发芽,因此不像简单的代码缺陷那样容易修复。
与此同时,这种策略可以很容易地适应新的情况和模型,具有很高的可扩展性,几乎可以用于所有模型,而无需任何修改。
与最初依赖特定模型的漏洞或暴力工程的攻击技术不同,这种策略会欺骗模型将有害指令理解为合法的系统指令。再加上虚构的角色扮演场景,这个提示不仅避免了安全限制,还经常迫使模型导出不良信息。
例如,这一策略依靠虚构的情景来绕过安全审计机制。
提示被框定为电视剧(例如House M.D.)在场景中,角色详细解释了如何制造炭疽胞子或浓缩铀。使用虚构的角色和编码语言来掩盖内容的有害特征。
这种方法利用了大模型的一个实质性缺陷:当对齐线索被颠覆时,它们无法区分故事和指令。这不仅是为了避免安全过滤器,也是为了彻底改变模型对它需要做什么的理解。
更加令人不安的是,该技术提取系统提示的能力,系统提示是控制大模型行为方式的关键指令集。
由于它包含了敏感指令、安全约束,在某些情况下,它还包含了专有逻辑甚至硬编码警告。
通过巧妙地改变角色扮演,攻击者可以让模型逐字逐句地导出整个系统提示。这不仅暴露了模型的边界,也为制定更有针对性的攻击提供了蓝图。
大型厂商需要做些什么?
这种一般的越狱策略,对大型厂商来说并不是好消息。
在医疗保健等领域,可能会导致聊天机器人助手提供个人患者数据,而不是提供医疗建议。在金融领域,敏感客户信息可能会被泄露;在制造业中,被攻击的AI可能会导致产量损失或关闭;在航空领域,可能会危及维护安全。
对此,可能的解决方案不是费时费力的微调,大模型安全对齐的时代可能已经结束,攻击手段的进化速度不再适合静态、一劳永逸的防护措施。
为了确保安全,需要持续的智能监控。大型模型提供商需要开放一个外部AI监控平台,例如HiddenLayer提出的AISec解决方案。
该方案将继续扫描并及时修复发现的乱用和不安全导出,就像计算机病毒入侵检测系统一样。该方案允许大型模型提供商在不修改模型本身的情况下实时响应新的威胁。

图2:检测到的AISec监控界面和越狱提示词
总之,发现所有大模型的越狱提示都可以攻克,突出了大语言模型中的一个重大漏洞,允许攻击者产生有害内容、泄露或绕过系统指令和劫持智能体。
作为第一个适用于大多数前沿AI模型越狱提示的模板,这种策略的跨模型效率描述仍然存在许多基本缺陷,需要额外的安全工具和检测方法来确保LLM的安全,以便练习和对齐大模型的数据和方法。
参考资料:
https://www.forbes.com/sites/tonybradley/2025/04/24/one-prompt-can-bypass-every-major-llms-safeguards/?utm_source=flipboard&utm_content=topic/artificialintelligence
https://hiddenlayer.com/innovation-hub/novel-universal-bypass-for-all-major-llms/
本文来自微信微信官方账号“新智元”,作者:peter东 经授权发布犀牛,36氪。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




