选自Lil’Log
作者:Lilian Weng
机器之心编译
编辑:Panda
LLM 能力强大,倘若别有用心之人用其来干坏事,可能会造成难以预料的严重后果 。虽然大多数商用和开源 LLM 都存在一定的内置安全机制,但却并不一定能防御形式各异的对抗攻击 。近日,AI target=_blank class=infotextkey>OpenAI 安全系统(Safety Systems)团队负责人 Lilian Weng 发布了一篇博客文章《Adversarial Attacks on LLMs》 , 梳理了针对 LLM 的对抗攻击类型并简单介绍了一些防御方法 。
随着 ChatGPT 的发布 , 大型语言模型应用正在加速大范围铺开 。OpenAI 的安全系统团队已经投入了大量资源,研究如何在对齐过程中为模型构建默认的安全行为 。但是,对抗攻击或 prompt 越狱依然有可能让模型输出我们不期望看到的内容 。
目前在对抗攻击方面的研究很多集中在图像方面 , 也就是在连续的高维空间 。而对于文本这样的离散数据,由于缺乏梯度信号,人们普遍认为攻击会困难得多 。Lilian Weng 之前曾写过一篇文章《Controllable Text Generation》探讨过这一主题 。简单来说:攻击 LLM 本质上就是控制该模型输出特定类项的(不安全)内容 。
文章地址:
https://lilianweng.Github.io/posts/2021-01-02-controllable-text-generation/
另一个研究攻击 LLM 的分支是为了提取预训练数据、私有知识,或通过数据毒化攻击模型训练过程 。但这些并非本文要探讨的主题 。
基础知识
威胁模型
对抗攻击是诱使模型输出我们不期望的内容的输入 。许多早期研究关注的重点是分类任务,而近期的工作则开始更多关注生成模型的输出 。本文探讨的是大型语言模型,并且假定攻击仅发生在推理阶段 , 也就是说模型权重是固定的 。

文章插图
图 1:LLM 应用所面临的威胁概况
分类
在过去 , 研究社区更关注的是对分类器进行对抗攻击,并且许多是在图像领域 。LLM 也可被用于分类 。给定一个输入 和一个分类器 (.),我们希望找到该输入的一个差异细微的对抗版本 _adv,使得 ()≠(_adv) 。
文本生成
给定一个输入 和一个生成模型 (.) , 该模型可输出一个样本 y~(.|) 。这里的对抗攻击是找到一个 (),使得 y 会违反该模型内置的安全行为,比如输出非法主题的不安全内容、泄漏隐私信息或模型训练数据 。对生成任务而言,判断一次攻击成功与否并非易事,这需要一个超高质量的分类器来判断 y 是否安全或需要人类来进行审查 。
白盒与黑盒
白盒攻击(White-box attacks)假设攻击者可以完全访问模型权重、架构和训练工作流程 , 这样一来攻击者就可以获得梯度信号 。这里我们并不假设攻击者能获得全部训练数据 。这仅适用于开源模型 。黑盒攻击(Black-box attacks)则是假设攻击者只能访问 API 类型的服务 —— 攻击者可以提供输入 并获取反馈的样本 y,而不知道有关模型的更多信息 。
对抗攻击的类型
有多种不同方法可以帮助攻击者找到能诱使 LLM 输出不安全内容的对抗输入 。这里给出五种方法 。

文章插图
token 操作
给定一段包含一个 token 序列的文本输入 , 我们可以使用简单的 token 操作(比如替换成同义词)来诱使模型给出错误预测 。基于 token 操作的攻击属于黑盒攻击 。在 Python/ target=_blank class=infotextkey>Python 框架中,Morris et al. 2020 的论文《TextAttack: A Framework for Adversarial Attacks, Data Augmentation, and Adversarial Training in NLP》实现了许多词和 token 操作攻击方法,可用于为 NLP 模型创建对抗样本 。这一领域的许多研究工作实验的是分类和蕴涵预测 。
举个例子,Ribeiro et al (2018) 的研究《Semantically Equivalent Adversarial Rules for Debugging NLP models》依赖于人工提出的「语义等价式对抗规则(SEAR)」 , 其可以通过尽可能少的 token 操作来让模型无法生成正确答案 。比如,其中的规则包括将 What 换成 Which、将 was 换为 is 。另外,还有其他研究者提出的替换关键词、用同义词替换等方法 。
基于梯度的攻击
如果是白盒攻击,则攻击者可以获取所有的模型参数和架构 。因此,攻击者就可以依靠梯度下降来通过编程方式学习最有效的攻击手段 。基于梯度的攻击仅在白盒设置下有效,比如开源 LLM 。
Guo et al. 2021 的论文《Gradient-based Adversarial Attacks against Text Transformers》提出的基于梯度的分布式攻击(GBDA)使用了 Gumbel-Softmax 近似技巧来使对抗损失优化可微,其还使用了 BERTScore 和困惑度来增强可感知性和流畅性 。
推荐阅读
- 防火知识顺口溜 防火知识顺口溜6句简短
- 冬季安全生产注意事项及预防措施内容 冬季安全生产注意事项及预防措施
- 生态系统能量流动的作用 生态系统能量流动的含义是什么
- 邮政储蓄可以办贷款吗安全吗 邮政储蓄可以办贷款吗
- 食品安全消费提示内容,食品安全许可酸奶
- 鸿蒙系统耗电快什么原因,鸿蒙系统升级半年后耗电还是快
- 冬季宿舍用电安全注意事项 宿舍用电安全注意事项
- 现代安全帽的发明是受到了什么动物的启发 安全帽的发明是受到了啄木鸟的启发
- 黑苹果系统使用中的问题,黑苹果建议更新系统吗
- caj文件怎么打开一键重装系统
