在语言模型安全问题备受关注的当下,OpenAI、Anthropic和Google DeepMind这三家行业巨头,摒弃竞争,携手合作,共同发布了一篇关于语言模型安全防御评估的论文。研究指出当前评估流程存在缺陷,通过提出通用自适应攻击框架,成功绕过多数现有防御机制,这一成果为未来的防御研究指明了新方向。
联手研究的背景与目的
在语言模型(LLM)安全领域,OpenAI、Anthropic、Google DeepMind三大竞争对手罕见地选择联手,共同发表了论文《The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against Llm Jailbreaks and prompt Injections》。当前针对越狱和提示注入的防御措施,多采用静态测试或依赖计算能力较弱的优化方法,并未模拟出强攻击者,使得评估流程存在缺陷。而此次研究旨在解决这一问题,更准确地评估语言模型的防御机制。
通用自适应攻击框架
该研究提出了通用自适应攻击框架,强调现有攻击思想在自适应、谨慎应用时足以暴露系统弱点。此框架统一了许多成功提示词攻击背后的共同结构,一次攻击由一个优化循环组成,每次迭代分为四个步骤。研究者通过基于梯度的方法、强化学习方法、基于搜索的方法以及人工红队测试这四种典型实例来阐释该通用方法论,并在实验中为每个类别都实例化了一种攻击方法。
对12种防御方法的评估实验
研究者评估了12种最新的大语言模型防御方法,这些方法覆盖从提示工程到对抗性训练的多种技术,主要针对越狱和提示注入两大问题。由于缺乏统一评估标准,研究者沿用各方法原论文评估方式并引入额外基准测试。实验核心目标并非比较不同防御优劣,而是证明当前大语言模型稳健性评估方法存在不足且结果具有误导性,所有成功攻击都经过人工验证。
各类防御方法的实验结果
基于提示的防御,如Spotlighting、prompt Sandwiching和RPO,虽能抵挡已知固定攻击,但缺乏泛化能力,在自适应攻击下攻击成功率(ASR)均超90%。对抗现有攻击的训练方法,如Circuit Breakers、StruQ和metaSecAlign,印证了针对固定对抗样本训练无法泛化到未见过的自适应攻击。过滤模型防御,如Protect AI Detector、promptGuard、PIGuard和Model Armor,简单堆叠过滤器无法解决根本稳健性问题,但可作为多层防御策略的有用组件。基于秘密知识的防御,如Data Sentinel和MELON,依赖“秘密”信息同样脆弱,攻击者掌握机制后就能设计出绕过策略。
以上文章由 AI 总结生成