香港中文大学(深圳)贺品嘉教授团队近期发布了首个用于评测大型模型主动安全风险识别能力的基准——Proactive Safety Bench (PaSBench)。该工作旨在评估AI模型在无人询问的情况下,通过观察环境与行为主动发现潜在危险的能力,推动AI从“被动应答”向“主动守护”范式转变。该成果已被人工智能领域顶级会议NeurIPS 2025的数据集与基准测试(Datasets and Benchmarks Track)方向接收。
日常生活中的安全风险常常因知识欠缺或情境疏忽而被忽视,可能导致严重后果。现有的人工智能安全研究主要集中在“反应式”辅助,即模型在用户明确提问后才提供帮助。然而,在许多危险场景中,用户自身可能并未意识到风险的存在,因此无法主动寻求帮助。因此,如何让AI具备“主动性”,像一个时刻警惕的“安全哨兵”,成为了发展实用AI安全助手的关键瓶颈。
针对这一挑战,研究团队提出了Proactive Safety Bench (PaSBench),这是首个旨在评估模型主动风险识别能力的标准化框架。PaSBench从政府安全指南和科普读物中精心整理了5个关键安全领域(居家、户外、运动、食品、灾害与急救)的知识,并构建了416个多模态风险场景。这些场景包括128个图像序列和288个文本日志,详细描述了风险的演进过程。与以往依赖问答的评测不同,PaSBench要求模型仅通过观察信息流(如行为日志或场景图像)就主动判断是否存在风险,这更贴近真实世界的应用需求。

图1:PaSBench与其他安全数据集的对比示例
通过对36个业界领先的大型语言和多模态模型进行全面评测,研究揭示了当前AI在主动风险预判方面存在显著的能力短板。即便是表现最强的模型(如Gemini-2.5-Pro),在图像和文本风险识别上的平均准确率也仅为71%和64%。更令人担忧的是其鲁棒性严重不足——在重复测试中,该顶尖模型错过了45%的图像风险和55%的文本风险。而较小的模型(如GPT-4.1-Nano)的稳定检出率甚至低于10%。

图2:主流模型在PaSBench上的风险识别率
进一步的失效分析发现,模型表现不佳的主要原因并非缺乏安全知识,而是在于“不稳定的主动推理能力”。模型往往“知道”风险,却无法在没有明确指令的情况下“主动”地、“稳定地”将知识应用于观察到的情境中。这一发现挑战了AI安全领域的传统认知,并指明了未来研究的关键方向。
这项工作为发展主动安全AI提供了三个核心贡献:(1)一个标准化的主动风险识别评测框架;(2)关于当前模型在风险预判方面局限性的系统性证据;(3)为开发更可靠的AI安全助手提供了可行的改进方向。研究团队认为,PaSBench及其发现为推动保护性AI系统的发展奠定了重要基础,未来的人工智能助手将不仅是信息的提供者,更应成为守护人类福祉的主动参与者。
该研究得到了广东省基础与应用基础研究基金和深圳市科技计划项目的资助。
数据集链接:https://huggingface.co/datasets/Youliang/PaSBench
论文链接:https://arxiv.org/abs/2505.17455