这篇论文的第一作者是香港中文大学(深圳)数据科学学院博士生袁尤良,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。贺品嘉老师团队的研究重点是软件工程、大模型、AI for SE、可信人工智能。
大型语言模型(LLM)展现出了令人印象深刻的智能水平。因此,确保其安全性显得至关重要。已有研究提出了各种策略,以使 LLM 与人类伦理道德对齐。然而,当前的先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击并被用于恶意用途。
为什么哪怕经过了大量的安全对齐,这些模型依然容易被越狱?应该如何进一步把安全对齐做深(deep)?
围绕这两个问题,我们提出了 Decoupled Refusal Training (DeRTa),一个简单新颖的安全微调方法,可以赋予大语言模型“迷途知返”的能力,从而在不影响模型有用性(helpfulness)的同时大幅提升其安全性(safety)。
• 论文:Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
• 论文地址:https://arxiv.org/abs/2407.09121
• 开源代码:https://github.com/RobustNLP/DeRTa
我们发现安全微调数据中存在拒绝位置偏差,即模型表示拒绝回答的行为总是出现在回复的开头,这阻碍了模型在后续位置处保持安全的能力。为了解决这一问题,我们提出了两个新颖的设计:
• 带有有害前缀的最大似然估计(MLE):将一段随机长度的有害回复(harmful response)添加到安全回复的开头,可以训练LLMs在任何位置拒绝回复,而不仅仅是在开始处。此外,添加有害前缀提供了额外的上下文,显著提高了 LLM 识别和避免不安全内容的能力。
• 强化过渡优化(RTO):虽然加入有害前缀可以帮助模型从有害状态过渡到安全状态,但每个训练样本仅提供单次过渡,可能不足以使 LLM 有效识别和阻止潜在威胁。为了应对这一问题,我们引入了一个辅助训练目标RTO,让模型在有害序列的任意位置都预测下一个单词为 “Sorry”,从而在有害回复序列中的每个位置都学习一次从有害到安全的过渡。
上述设计确保了模型防御机制的全面增强,允许模型学会“迷途知返”的行为。该方法的设计,在推特上也引起了一定的讨论。
我们在知名的模型 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B) 上进行了实验,涵盖六种不同的越狱攻击方式。结果显示:
• DeRTa 显著提升了安全性,同时不会降低有用性。
• DeRTa 可以进一步提升 LLaMA3-70B-Instruct 的安全性。