学生必看
员工必看
返回主站
English
邮箱 校园网络 VPN 办事大厅 校园卡 CUHK(SZ) 账号 软件服务 教务 在线视频服务
学生必看
员工必看
返回主站
English
  • 关于我们
    • 部门介绍
    • 服务台
    • 规章制度
      • 政策法规
      • 管理规定
    • 多媒体设施与数据中心
  • 我们的服务
    • 办事大厅
    • 校园网络
    • 桌面及终端应用
    • 账号及权限
  • 网络和信息安全
    • 安全规定
    • 重要数据的保护
    • 钓鱼邮件警示
    • 安全提示
    • 密码安全
    • 安全技能
  • 高性能计算
    • 平台介绍
    • 平台资源
      • 硬件资源
      • 软件资源
    • 使用指南
      • 各集群使用规范
      • 其他规范及办法
      • 操作手册
      • 培训视频
    • 收费标准
      • 机时费收费标准
      • 存储空间使用费收费标准
    • 案例介绍
  • 应用软件
  • 常见问题
    • 多媒体设备
    • 校园卡
    • 校园网
    • 云打印
    • 问卷平台
    • 软件相关
    当前位置:
  • 首页
  • 高性能计算
  • 案例介绍
  • 贺品嘉团队揭示并解决大模型安全性中的拒绝位置偏置问题-袁尤良提供(2024年)
高性能计算
平台介绍
平台资源
  • 硬件资源
  • 软件资源
使用指南
  • 各集群使用规范
  • 其他规范及办法
  • 操作手册
  • 培训视频
收费标准
  • 机时费收费标准
  • 存储空间使用费收费标准
案例介绍
贺品嘉团队揭示并解决大模型安全性中的拒绝位置偏置问题-袁尤良提供(2024年)

       这篇论文的第一作者是香港中文大学(深圳)数据科学学院博士生袁尤良,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和腾讯 AI Lab 的涂兆鹏博士。贺品嘉老师团队的研究重点是软件工程、大模型、AI for SE、可信人工智能。

       大型语言模型(LLM)展现出了令人印象深刻的智能水平。因此,确保其安全性显得至关重要。已有研究提出了各种策略,以使 LLM 与人类伦理道德对齐。然而,当前的先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击并被用于恶意用途。

       为什么哪怕经过了大量的安全对齐,这些模型依然容易被越狱?应该如何进一步把安全对齐做深(deep)?

       围绕这两个问题,我们提出了 Decoupled Refusal Training (DeRTa),一个简单新颖的安全微调方法,可以赋予大语言模型“迷途知返”的能力,从而在不影响模型有用性(helpfulness)的同时大幅提升其安全性(safety)。

       

    •   论文:Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
    •   论文地址:https://arxiv.org/abs/2407.09121
    •   开源代码:https://github.com/RobustNLP/DeRTa

       

       我们发现安全微调数据中存在拒绝位置偏差,即模型表示拒绝回答的行为总是出现在回复的开头,这阻碍了模型在后续位置处保持安全的能力。为了解决这一问题,我们提出了两个新颖的设计:

       •   带有有害前缀的最大似然估计(MLE):将一段随机长度的有害回复(harmful response)添加到安全回复的开头,可以训练LLMs在任何位置拒绝回复,而不仅仅是在开始处。此外,添加有害前缀提供了额外的上下文,显著提高了 LLM 识别和避免不安全内容的能力。
       •   强化过渡优化(RTO):虽然加入有害前缀可以帮助模型从有害状态过渡到安全状态,但每个训练样本仅提供单次过渡,可能不足以使 LLM 有效识别和阻止潜在威胁。为了应对这一问题,我们引入了一个辅助训练目标RTO,让模型在有害序列的任意位置都预测下一个单词为 “Sorry”,从而在有害回复序列中的每个位置都学习一次从有害到安全的过渡。

上述设计确保了模型防御机制的全面增强,允许模型学会“迷途知返”的行为。该方法的设计,在推特上也引起了一定的讨论。

       

       我们在知名的模型 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B) 上进行了实验,涵盖六种不同的越狱攻击方式。结果显示:

       •    DeRTa 显著提升了安全性,同时不会降低有用性。
       •    DeRTa 可以进一步提升 LLaMA3-70B-Instruct 的安全性。

       

       随后我们对 DeRTa 进行了更细致的分析,发现:

       •   DeRTa 赋予模型“迷途知返”的能力,即使在已经输出了一部分不安全文本的情况下,模型也能有效过渡到安全状态(参考表格3和图片4)。
       •   仅仅使用带有有害前缀的最大似然估计(MLE)不足以应对各种形式的攻击,RTO 对于赋予模型在任何位置拒绝的能力至关重要。

       

       

      

       最后,通过与 DPO 的比较,我们进一步验证了,DeRTa 带来的安全性提升并不是简单地利用了有害回复的信息。此外,该方法对不同大小的模型都有很好的效果。

       

结语:

       大模型安全依然任重道远。如何突破表面对齐,将安全做深入是一件很有挑战的事情。我们在此给出了一些探索和思考,希望可以为这一方面的研究,提供一些有价值的见解和基线方法。

版权所有 © 香港中文大学(深圳)资讯科技服务处