这篇论文作为会议论文发表在ICLR 2024,第一作者是香港中文大学(深圳)数据科学学院博士生朱梓豪,指导老师为香港中文大学(深圳)数据科学学院的吴保元教授。吴教授团队的研究重点是人工智能安全与隐私、机器学习、计算机视觉与优化。
论文:Versatile Data Cleanser based on visual-linguistic inconsistency by multi-modal large language models
论文地址:https://arxiv.org/pdf/2309.16211
开源代码:https://github.com/zihao-ai/vdc
数据在构建人工智能系统中的作用,随着数据中心人工智能概念的兴起而被强调。然而,在现实世界中,数据集可能包含脏样本,例如后门攻击中的中毒样本、众包中的噪声标签,甚至两者的混合体。这些脏样本的存在使得深度神经网络易受攻击且不可靠。因此,检测脏样本以提高数据集的质量和可靠性是至关重要的。现有的检测方法通常仅专注于检测中毒样本或噪声标签,但在处理来自其他领域的脏样本时常常表现出较弱的泛化能力。
在本文中,我们发现各种脏样本的共同点在于图像与其关联标签之间的视觉-语言不一致性。为了捕捉跨模态的不一致语义,我们提出了多功能数据清洗器(VDC),该方法利用了多模态大语言模型在跨模态对齐和推理方面的卓越能力。VDC由三个连续模块组成:视觉问题生成模块,生成有关图像的有见地的问题;视觉问答模块,通过MLLM回答这些问题以获取视觉内容的语义;最后是视觉答案评估模块,用于评估不一致性。
大量实验表明,VDC在处理各种类别和类型的脏样本时,具有卓越的性能和泛化能力,具体表现为高TPR,低FPR,且利用筛选过后的数据重新训练模型,在测试集上表现出了较好的性能。