导读
基于医学影像的人工智能近年来的快速发展让“公平”与“隐私”成为绕不开的两大挑战:模型既要避免因年龄、性别、地域等因素产生诊断偏差,又要在避免数据泄露的前提下协同训练。传统联邦学习虽在一定程度上解决了隐私问题,但其主要关注各医院之间的协作公平,却忽视了群体公平,即对弱势或少数群体的诊断一致性。为了解决这一问题,来自香港中文大学(深圳)等机构的学者们提出了一个全新的联邦学习框架FlexFair。FlexFair通过引入灵活的正则化损失项,使模型能够同时适用于多种公平性衡量指标,包括等准确性、人口统计平等和机会平等。为更全面地分析基于真实数据的公平性差异,文章还收集了来自四家医院共678位患者的宫颈癌磁共振影像,形成了一个多中心的宫颈癌影像数据集,该数据集的多样性显著提高了对模型在真实场景下表现的评估能力。结合其他广泛应用的影像数据集,文章在息肉分割、视网膜血管分割、宫颈癌分割和皮肤病诊断四个临床应用场景上综合评估了FlexFair的表现,实验表明FlexFair在公平性和准确性方面均优于当前最先进的方法。目前代码及数据集已开源。
• 论文链接:https://www.nature.com/articles/s41467-025-58549-0
• GitHub:https://github.com/MaksimXing/FlexFair

近年来,人工智能在医疗影像领域的迅速普及引发了人们对不同群体的公平性及隐私保护问题的广泛关注,尤其是在疾病诊断和治疗决策过程中的隐私问题。在多中心联合的医疗影像训练任务中,跨中心影像差异巨大:采集协议、设备厂商、病人分布乃至标注习惯都各不相同。常见的策略是将数据集中到同一地点再训练,但这直接触碰了隐私红线。联邦学习的引入虽然避免了数据离开本地以保护隐私,却默认各中心对模型的贡献越均衡越好,忽略了模态内部因性别、年龄或种族造成的预测不公。举例来说,如果模型在年轻患者上训练得更多,老年患者的误诊率可能会显著异于正常水平。大多数联邦学习框架仍主要关注机构间的协作公平,而忽视了群体公平,这可能加剧医疗健康领域的不平等现象。因此,FlexFair 的目标就是让这两类公平同时落地:既公平于医院,也公平于患者群体。
图一 FlexFair与传统集中式训练和普通联邦学习的比较。FlexFair 通过正则机制有效缓解了任务模型的预测差异,改善公平性,
同时优先考虑了数据隐私。

FlexFair 的核心思路
FlexFair 的设计完全植根于联邦学习的执行流程。它在本地训练损失中引入了一个正则项,利用每个敏感组别的损失与全局平均损失完成了计算。由于 等准确性、人口统计平等、机会平等 都可以表述为各组风险与整体风险的距离,研究者只需替换损失函数或分组策略,就能在同一框架下切换不同的公平性指标。更重要的是,方差正则只在本地梯度计算中出现,不会额外泄露任何隐私信息。
具体而言,文章首先讨论了不同群体公平性定义的统一形式,定义最大性能差异为群体公平性的衡量指标:
其中,
,表示所有群组的加权均值。同时人口统计平等和机会平等也能以类似的形式表示。基于统一的公平性定义,文章进一步提出了方差形式的正则项,以更易于优化的方式约束群组间的最大性能差异:

本文同时给出了该正则项与最大性能差异的关系,即:

由此可见,通过优化该方差形式的正则项,可有效控制群体间最大性能差距,从而提升模型的群体公平性。

图二 FlexFair的详细设计
FlexFair通过将多种敏感属性纳入其框架,解决了联邦学习中的公平性和隐私性难题。通过使用多种指标评估公平性,FlexFair将这些属性整合到加权正则化损失中,以确保训练过程能促进所有群体在多样化指标上的公平性。
在分割(结直肠息肉分割、视网膜血管分割、宫颈癌磁共振分割)与分类(皮肤病分类)任务中,FlexFair 分别以 SANet与 ResNet-50 作为骨干网络,正则项对每个敏感属性计算。在联邦学习方法上,文章选用了FedAvg作为基准方法,通信和时间开销与原方法持平。FlexFair的训练流程如下:在联邦学习的本地优化阶段,每个中心(医院)独立计算本地数据上的公平正则项和原始损失函数的梯度,然后仅将聚合后的模型上传至服务器端进行聚合。
多中心宫颈癌数据集的建立

图三 多中心宫颈癌数据集的收集过程
在经过有效筛选、标注与处理后,论文收集了 678 例宫颈癌患者的T2-W磁共振影像,横跨四家医院,囊括包括中心、设备等多种差异。所有影像均经放疗医师标注并共识,形成了针对公平性议题公开的宫颈癌多中心分割集,为后续研究提供了真实且严格的测试环境。


图四 FlexFair在息肉、视网膜血管、宫颈癌三个分割数据集上的表现。

图五 FlexFair在皮肤病分类数据集上的表现。这一场景测试了年龄、性别两个敏感属性,
以及人口统计平等、机会平等两种公平性衡量指标。
本文在四个不同的医疗影像任务上验证了FlexFair框架的公平性-性能有效性。这些任务分别为息肉分割(Kvasir与CVC-300数据集)、视网膜血管分割(CHASE-DB1、DRIVE、STARE数据集)、皮肤病分类(HAM-10000与BCN-20000数据集)以及宫颈癌磁共振分割(由4家医院构成的多中心私有数据集,共678名患者)。这些数据集涵盖了不同的医学成像任务和人口统计特征,为模型的全面评估提供了基础。
在实验中,文章系统比较了FlexFair与联邦学习和公平性方法(FedAvg、FedProx、FedNova、SCAFFOLD、FairMixup与FairFed)的性能。每种实验均使用了5个随机种子,并分别探索多组超参数配置。实验结果表明,FlexFair在所有实验场景下均显著优于对比方法。文章通过Pareto Front曲线与小提琴图分别说明了FlexFair的公平性-性能权衡明显优于现有方法,且稳定性极佳,实验表现的显著性也由t检验得到明确的统计学支持。整体实验结果充分印证了FlexFair在多个医学成像任务上均表现出色。与现有的联邦学习和公平机器学习方法相比,FlexFair在保持高准确性的同时,显著降低了不同人口群体之间的预测差异,从而提高了模型的公平性。
总体而言,FlexFair所提出的灵活公平性机制具有普遍适用性,能够在需要隐私保护的医疗影像场景中实现隐私保护与公平性的兼顾,推动了人工智能医疗技术向更加公正和个性化的方向迈进。

论文共同第一作者邢惠钧、孙睿、魏军来自香港中文大学 (深圳) Deep Bit 实验室,导师为李镇老师。实验室专注于利用人工智能技术进行跨学科研究,例如自动驾驶的三维感知、医学成像和分子理解的多模态数据分析和生成等。研究领域涵盖计算机视觉、机器/深度学习和AI4Science。感兴趣的同学可以在主页上获取更多信息 https://mypage.cuhk.edu.cn/academics/lizhen/。