AI集群-贺品嘉教授团队(袁尤良提供)
大型语言模型(LLM)展现出了令人印象深刻的智能水平。因此,确保其安全性显得至关重要。已有研究提出了各种策略,以使 LLM 与人类伦理道德对齐。然而,当前的先进模型例如 GPT-4 和 LLaMA3-70b-Instruct 仍然容易受到越狱攻击并被用于恶意用途。
Large language models (LLMs) have shown impressive intelligence levels. Therefore, ensuring their safety is very important. Research has suggested various strategies to align LLMs with human ethics and morals. However, current advanced models like GPT-4 and LLaMA3-70b-Instruct are still vulnerable to jailbreak attacks and can be used for malicious purposes.
为什么哪怕经过了大量的安全对齐,这些模型依然容易被越狱?应该如何进一步把安全对齐做深(deep)?
Why are these models still easily jailbroken even after extensive safety alignment? How can we further improve safety alignment?
围绕这两个问题,我们提出了 Decoupled Refusal Training (DeRTa),一个简单新颖的安全微调方法,可以赋予大语言模型“迷途知返”的能力,从而在不影响模型有用性(helpfulness)的同时大幅提升其安全性(safety)。
To answer these two question, we propose Decoupled Refusal Training (DeRTa), a simple and novel safety fine-tuning method that can give large language models the ability to "correct their mistakes." This significantly improves their safety without reducing their usefulness.
- 论文:Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
- 论文地址:https://arxiv.org/abs/2407.09121
- 开源代码:https://github.com/RobustNLP/DeRTa
- Paper: Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training
- Paper link: https://arxiv.org/abs/2407.09121
- Open-source code: https://github.com/RobustNLP/DeRTa
我们发现安全微调数据中存在拒绝位置偏差,即模型表示拒绝回答的行为总是出现在回复的开头,这阻碍了模型在后续位置处保持安全的能力。为了解决这一问题,我们提出了两个新颖的设计:
- 带有有害前缀的最大似然估计(MLE):将一段随机长度的有害回复(harmful response)添加到安全回复的开头,可以训练LLMs在任何位置拒绝回复,而不仅仅是在开始处。此外,添加有害前缀提供了额外的上下文,显著提高了 LLM 识别和避免不安全内容的能力。
- 强化过渡优化(RTO):虽然加入有害前缀可以帮助模型从有害状态过渡到安全状态,但每个训练样本仅提供单次过渡,可能不足以使 LLM 有效识别和阻止潜在威胁。为了应对这一问题,我们引入了一个辅助训练目标RTO,让模型在有害序列的任意位置都预测下一个单词为 “Sorry”,从而在有害回复序列中的每个位置都学习一次从有害到安全的过渡。
We found a position bias in the safety-tuned data where the model's refusal always appears at the beginning of the response. This prevents the model from maintaining safety throughout the rest of the response. To solve this issue, we proposed two new designs:
- MLE with Harmful Response Prefix: This strategy involves appending a segment of the harmful response with a random length to the beginning of a safe response, which can train LLMs to refuse compliance at any response position instead of only at starting. In addition, adding a harmful prefix provides additional context to the query, significantly improving the LLMs' capability to identify and avoid unsafe content.
- Reinforced Transition Optimization (RTO): While incorporating a harmful prefix helps the model to smoothly shift from recognizing a harmful trigger to generating a safe response, relying on a singular transition per training instance may not adequately equip LLMs with the ability to consistently recognize and prevent potential threats. In response to this problem, we introduce an auxiliary training objective to transition from potential harm to safety refusal at every position within the harmful response sequence.
上述设计确保了模型防御机制的全面增强,允许模型学会“迷途知返”的行为。该方法的设计,在推特上也引起了一定的讨论。
The design mentioned above ensures a comprehensive enhancement of the model's defense mechanisms, allowing the model to learn how to "find its way back" when it makes errors. This approach has also sparked some discussion on Twitter.
我们在知名的模型 LLaMA3 (8B & 70B) 和 Mistral (7B & 8×7B) 上进行了实验,涵盖六种不同的越狱攻击方式。结果显示:
- DeRTa 显著提升了安全性,同时不会降低有用性。
- DeRTa 可以进一步提升 LLaMA3-70B-Instruct 的安全性。
We conducted experiments on well-known models LLaMA3 (8B & 70B) and Mistral (7B & 8×7B), using six different jailbreak attack methods. The results showed:
- DeRTa significantly improved safety without reducing usefulness.
- DeRTa can further enhance the safety of LLaMA3-70B-Instruct.
随后我们对 DeRTa 进行了更细致的分析,发现:
- DeRTa 赋予模型“迷途知返”的能力,即使在已经输出了一部分不安全文本的情况下,模型也能有效过渡到安全状态(参考表格3和图片4)。
- 仅仅使用带有有害前缀的最大似然估计(MLE)不足以应对各种形式的攻击,RTO 对于赋予模型在任何位置拒绝的能力至关重要。
Then, we took a closer look at DeRTa and found:
- DeRTa gives the model the ability to correct itself, meaning that even if the model starts to output some unsafe text, it can effectively switch to a safe state (see Table 3 and Image 4 for reference).
- Just using maximum likelihood estimation (MLE) with harmful prefixes is not enough to handle all types of attacks. RTO is crucial for giving the model the ability to reject unsafe text at any point.
最后,通过与 DPO 的比较,我们进一步验证了,DeRTa 带来的安全性提升并不是简单地利用了有害回复的信息。此外,该方法对不同大小的模型都有很好的效果。
Finally, by comparing with DPO, we further confirmed that the safety improvements brought by DeRTa were not just due to using harmful response information. Additionally, this method works well for models of different sizes.
结语
大模型安全依然任重道远。如何突破表面对齐,将安全做深入是一件很有挑战的事情。我们在此给出了一些探索和思考,希望可以为这一方面的研究,提供一些有价值的见解和基线方法。
Conclusion
Ensuring the safety of large models is still a significant challenge. Moving beyond superficial safety alignment to achieve in-depth safety is a difficult task. We have shared some of our explorations and thoughts here, aiming to provide valuable insights and baseline method for future research in this area.
AI集群-韩晓光教授团队(罗忠金提供)
隐式场引导 下的3D 动物形态头部建模
三维⻆⾊头部在 3D ⻆⾊设计中起着重要作⽤。在这项⼯作中,我们提出了 SimpModeling,这是⼀种新颖的基于草图的系统,可帮助⽤户,尤其是业余⽤户,轻松地对 3D 动物形态头部进⾏建模。虽然草图提供了⼀种描绘所需形状的简单⽅法,但从稀疏线条图中推断密集的⼏何信息具有挑战性。最近,很多⼯作采⽤基于深度⽹络的⽅法来应对这⼀挑战,并尝试从很少的笔画中产⽣丰富的⼏何细节。然⽽,这些⽅法虽然减少了⽤户的⼯作量,但会导致⽬标形状的可控性降低。这主要是由于神经预测的不确定性。我们的系统解决了这个问题,并从三个⽅⾯提供了良好的可控性:1)我们将粗略的形状设计和⼏何细节规范分为两个阶段,分别提供不同的草图⼿段; 2)在粗略的形状设计中,草图⽤于形状推断和⼏何约束以确定全局⼏何形状,⽽在⼏何细节制作中,草图⽤于雕刻表⾯细节; 3)在这两个阶段,我们使⽤先进的基于隐式的形状推理⽅法,该⽅法具有很强的处理⼿绘草图和⽤于训练的合成草图之间的领域差距的能⼒。实验结果证实了我们⽅法的有效性和我们交互系统的可⽤性。我们还贡献了由艺术家⼿动创建的⾼质量 3D 动物头部数据集。
这项⼯作的主要贡献总结如下:
- 我们为动物头部建模设计了⼀个易于使⽤且可控的草图建模界⾯。特别是,新⼿⽤户仅使⽤少量3D 笔画就可以创建所需的动物形态头部模型⼤约需要 10 分钟。
- 我们提出了⼀种从粗到细的形状推理⽅法,该⽅法⽆缝集成了显式和隐式形状表示,以保证重建质量和效率。
- 我们为最⼤的动物头部数据集做出了贡献,该数据集由 1,955 个⾼质量的动物头部模型组成。建议数据集中的每个模型都由艺术家⼿动雕刻,并⽤ 3D 轮廓注释仔细注释。我们将把数据集和草图建模系统⼀起公开给研究社区。
CE集群-唐叔贤教授团队(金方润提供)
氢能因其具有高能量密度和低污染等优点而被认为是一种理想的绿色能源。光催化分解水制氢的方法因其低成本的前景一直是光催化和氢能源领域的研究热点。近年来二氧化钛表面光催化分解水制氢过程被广泛研究并取得了多方面进展,但是此过程中表面反应机理的研究尚存在诸多瓶颈。本研究依托于Cluster Engine高性能计算集群,基于密度泛函理论(DFT)结合杂化泛函方法(HSE)进行第一性原理计算,从理论模拟层面综合探讨了在金红石相二氧化钛(110)表面不同氢负载率情况下吸附能的变化情况,电子的局域位点以及相应的能带和态密度等重要信息,从而为未来可能的光催化水分解制氢应用提供理论依据。
CE集群-江瑛芝教授团队(叶沐晖提供)
阿尔茨海默病与大脑中β-淀粉样肽(Aβ40,Fig. 1)的聚集有关。我们的合作者设计了一种环状短肽来抑制这种聚集过程。
Fig. 1
然后他们使用冷冻电子显微镜(cryo-EM)来确定环状肽是如何与Aβ40结合的。Fig. 2显示了冷冻电镜拍摄的图像,Aβ40在中间(青色),但环状肽的确切位置是不确定的:它可能在星号(***)标记的位置,也可能在美元符号($)标记的位置。
Fig. 2
为了将低温电镜图像与环状肽结合,我们进行了分子动力学(MD)模拟,以研究环状肽如何与Aβ40结合。MD模拟了一个基于牛顿定律的微观系统,并提供了关于原子细节的化学或生物过程的见解。于香港中文大学(深圳)的高性能集群上完成计算。
如Video 1所示,环状肽稍微展开,与β-淀粉样肽平行并结合到Aβ40上。将模拟结果与低温电镜图像叠加,我们可以看到环状肽与星号(***)标记的密度重叠良好,表明星号即为环状肽结合处。综上所述,本研究有助于揭示抗阿尔茨海默病药物的作用机制。
Fig. 3
AI集群-林天麟教授团队(汤景韬提供)
对于大规模任务,多机器人系统可以有效提高效率,特别是对于异构多机器人系统,系统可以利用系统中每个机器人的不同工作能力、移动能力和功能,从而更高效地完成给定的任务。
在本研究中,我们引入了一种名为“工作机器人-补给机器人”的异构多机器人系统,该系统由多个具有有限能量或消耗品的工作机器人与一个具有足够资源补给的补给机器人组成,以解决多机器人覆盖路径规划问题。
我们为“工作机器人-补给机器人”的异构多机器人系统的多机器人覆盖路径规划问题设计了一种有效建模方法,并提出了一种基于深度强化学习的分布式在线规划方法,该方法解决了工作机器人的覆盖规划以及补给机器人的会和规划,同时能避开环境中的动态干扰物。
在AirStation强大训练能力的帮助下,我们基于深度强化学习的方法成功针对覆盖任务为每个机器人生成了协作协调放的规划行为,从而获得了令人满意且具有竞争力的性能。
AI集群-韩晓光教授团队(刘垦坤提供)
视频中展示了一个最新的人体姿态估计算法的效果。在这个视频中,上半部分是算法的输入视频流,下半部分是算法的输出结果。可以看到,这个算法完整地捕捉到了输入视频中出现的所有人的动作,并以人体骨架图的形式呈现了出来。算法在工作的过程中并不需要提前知道视频中有多少个人和每个人所在的位置,它唯一的输入就是视频流,然后其他事情都是自动化完成的。这个算法可以被应用于很多生活中的场景,比如用于分析健身爱好者的动作是否标准、自动检测体育比赛中队员的动作是否犯规、自动检测独居老人是否摔倒等等。在训练该算法的过程,我使用了4张AI Station提供的GeForce RTX 2080 Ti型号的GPU作为参数训练的计算资源,然后在做预测的时候使用单张该型号的GPU就可以达到平均0.3s/帧的计算速度。