联邦学习中的隐私保护技术研究

2024-03-12 09:18刘晓迁钱汉伟
信息安全研究 2024年3期
关键词:参与方同态攻击者

刘晓迁 许 飞 马 卓 袁 明,2 钱汉伟,3

1(江苏警官学院计算机信息与网络安全系 南京 210031)

2(南京邮电大学计算机学院 南京 210023)

3(南京大学软件学院 南京 210023)

联邦学习的概念最早由谷歌提出,用于解决安卓设备的本地模型更新问题.在联邦学习中,多个数据持有方将数据保留在本地,仅在协同训练过程中交换训练参数[1].McMahan等人[2]的研究证明,分布式训练的联邦学习模型能够取得与集中式学习相近或更好的结果.联邦学习基于分散计算范式收集与融合海量数据进行模型训练,避免直接将数据暴露给不确定的第三方,对用户数据隐私起到很大的保护作用.然而,联邦学习模型本身存在一定的脆弱性,同时恶意攻击者普遍存在,因此,联邦学习中存在大量的隐私泄露风险[3].

近年来,联邦学习中的隐私保护技术研究取得了一定的成果.目前,隐私保护研究主要以经典的加密或扰动技术为基础,例如以差分隐私(differential privacy)为代表的数据扰动法[4]、以同态加密(homomorphic encryption)和安全多方计算(secure multi-party computation)为代表的数据加密法等[5-6].隐私保护的应用场景从最初的关系型数据发布逐渐发展到较为复杂的社交网络、电子商务等领域[7-9].

Mothukuri等人[10]提供了联邦学习安全攻击和隐私攻击方面的全面研究,并针对2类攻击总结了对应的保护措施.但文中提到的隐私威胁较少,更专注于安全攻击的研究,与本文侧重点不同.周俊等人[11]从联邦学习模型训练的主体出发,将最新的保护技术按参与方和服务器的关系进行划分.与之相比,目前的研究更多地是基于隐私保护手段的不同,将联邦学习的隐私保护技术进行划分[12-13].在汤凌韬等人[14-15]的研究中,依据作用阶段、防护策略和技术手段的不同,将联邦学习中的隐私保护技术分为6大类,主要包括安全聚合机制、安全多方机制、同态加密机制、可信硬件机制、安全预测机制、模型泛化机制.

本文从联邦学习的安全现状及现有隐私保护技术研究成果入手,通过对联邦学习中的隐私泄露原因进行分析,揭示了易受攻击的关键环节以及潜在的隐私泄露风险.同时,对国内外联邦学习隐私保护研究的现状进行总结,从攻击与防御的角度归纳了联邦学习所面临的各种攻击方式及对应防御方法.本文还探索了未来可能的发展方向,为研究者提供了有益的参考,以有效保护用户的隐私安全.

1 联邦学习中的隐私保护研究现状

在联邦学习中,共有n个参与方{F1,F2,…,Fn},每个参与方Fi都持有各自的本地数据集{D1,D2,…,Dn},各数据持有方不共享本地数据Di而仅共享运算参数,通过多方协作最终获得一个全局联邦学习模型[16].作为对比,传统集中式机器学习模型则是将各用户端的数据收集起来形成一个大数据集进行训练.令MFED表示联邦学习模型的精度、MSUM为集中式机器学习模型的精度.称联邦学习模型具有δ的精度损失,如果存在非负实数δ,使得以下不等式成立:

|MFED-MSUM|<δ.

通常,联邦学习获得的全局模型表现没有聚合模型好,是因为在训练过程中不可避免地存在精度损失.但联邦学习在隐私性和运算效率等方面要好于传统集中式机器学习.

1.1 联邦学习中隐私泄露原因分析

虽然联邦学习中数据保留在本地,具有更好的隐私性,但是由于模型自身的脆弱性和攻击的频繁出现,联邦学习依然面临着隐私泄露的风险.了解隐私泄露的原因有助于研究者针对性展开隐私保护并找到未来发展方向.联邦学习隐私泄露的原因主要包括以下几个方面:1)数据共享不当.联邦学习中参与共享的一方数据安全措施不到位可能导致整个联邦学习系统的数据泄露.2)不可靠参与方.半诚实或恶意客户端极易造成隐私泄露.3)人为因素.人为失误也有可能导致数据泄露给恶意参与方.4)未知的安全漏洞.联邦学习系统中可能存在未知的安全漏洞.5)联邦学习中的通信信道不安全,容易被黑客攻击而导致数据泄露.6)模型攻击.即使联邦学习的过程中参数没有泄露,攻击者也可以通过攻击发布的模型获取敏感数据.

1.2 联邦学习中的隐私攻击分类

本文将现有的隐私攻击依照攻击角度分为外部攻击和内部攻击2大类.外部攻击是由外部发起的,例如恶意黑客窃听服务器与客户端之间的通信信道;内部攻击则是由内部人员发起的攻击,可能出现在服务器或任意客户端[17].

1.2.1 外部攻击

外部攻击包含模型反演攻击、外部重建攻击和外部推断攻击3类:

模型反演攻击是指恶意第三方通过访问发布的模型API接口,借助一系列查询操作分析模型的预测输出,借此推测模型的训练数据或者测试数据的信息[18].在对给定模型的白盒访问中,Fredrikson等人[19]指出,对决策树的模型反演攻击可以识别出敏感变量,而且没有假阳性.

外部重建攻击是指攻击者依据模型输出或者参数重建整个训练样本.攻击者通过持续改变输入使目标向预定输出靠拢.Fredrikson等人[20]设计了黑盒模式下的外部攻击实验,该算法利用发布的模型和一些用户的非敏感信息恢复出敏感基因信息.此外,Fredrikson等人[19]又设计了白盒模式下的外部攻击实验,攻击者基于发布的模型参数进行深度学习模型训练,并成功恢复了训练集中的全部特征.

外部推断攻击中,攻击者通过观测模型的输出结果预测某条记录是否在这个数据集里,例如某用户在艾滋病治疗记录中,就可能暴露该用户的患病隐私.Shokri等人[21]在黑盒访问的基础上设计了外部成员推断攻击.该实验中,算法基于影子模型的预测结果,设计近似样本是否属于训练集的攻击分类器进行训练.

1.2.2 内部攻击

内部攻击主要包含投毒攻击、内部重建攻击和内部推断攻击3类.

投毒攻击主要包含数据投毒和模型投毒等手段[22-23],如图1所示.在联邦学习中,恶意客户端在模型训练阶段很可能将被篡改的数据或权重发送给服务器,从而影响全局模型的准确性.Jiang等人[24]设计了一种攻击方式,通过注入错误样本诱使学习模型的输出值近似于期待的结果,破坏模型的可用性.模型投毒是指攻击者通过传输恶意的本地模型参数直接对全局模型产生影响.Bagdasaryan等人[25]的实验表明模型投毒比数据投毒更具有破坏力,只要有一个恶意参与方发送错误参数就可以破坏全局模型.

图1 数据投毒和模型投毒

内部重建攻击的主要目的是恢复中间计算结果背后特定训练样本中的敏感信息,分为类别重建和样本重建2种形式.在类别重建中,攻击者的目标是通过重建某种类别的通用样本模式,诱导模型暴露出以往未知的敏感信息.Hitaj等人[26]在客户端-服务器架构下,基于生成对抗网络(generative adversarial networks, GAN)设计了一种主动重建攻击.恶意参与方传输错误模型参数给中央服务器,诱使其他诚实参与方暴露本地信息.Wang等人[27]提出了一种mGAN-AI攻击框架,导致联邦学习的用户级隐私泄露.

作为对比,样本重建比类别重建更加精确,可以重建出某个类别中的多个样本,获取的敏感信息更多.对此,Zhu等人[28]提出了一种窃取梯度并重构训练数据的深度泄露算法(deep leakage from gradients, DLG),攻击者随机生成1对数据和标签参与模型运算,通过对输入值和标签的有限迭代优化,使得最终获得的梯度与真实梯度值之间的差距最小化.Zhao等人[29]对DLG算法进行改进,提出了iDLG(improved DLG)算法,基于交叉熵损失计算输出标签概率与前一层梯度数值之间的关系,进而判别标签的真实值.

根据攻击的对象不同,内部推断攻击可分为属性推断攻击和成员推断攻击.属性推断攻击是指敌手通过分析联邦学习模型训练过程中的周期性更新,推断目标终端的训练集中是否存在某敏感属性.在Melis等人[30]的工作中,假设敌手是中央服务器,攻击者借助辅助集和全局参数计算生成包含目标属性和不包含目标属性的梯度更新向量,借此训练属性分类器.Zhang等人[31]设计了黑盒状态下的推断攻击,攻击者在不参与训练的情况下,通过已训练好的模型也可以推断出目标样本中的敏感属性,进而造成隐私泄露.

成员推断攻击是一种推断训练数据集细节的攻击,通过检查某数据是否存在于训练集上来窃取信息.Nasr等人[32]设计了白盒模式下的成员推断攻击,其中半诚实参与方主要观察成员与非成员在模型上的梯度差异.而恶意参与方则能够依据梯度变化推断出该数据是否为成员数据.

2 联邦学习中的隐私保护技术

隐私保护技术是防止敏感信息泄露的核心技术,能为隐私数据提供严格的量化保护.随着研究的不断深入,隐私保护手段也逐渐多样化,为了更好地和前文的攻击策略进行对应,本文将隐私保护手段分为2类,即数据扰动和过程加密.

其中,数据扰动保护的是隐私数据本身,在一定程度上能够防御内部攻击者对数据的窃取和推断;而过程加密则是对数据传输的通信信道进行保护,使得外部攻击者不易识别敏感信息.

2.1 数据扰动

差分隐私是当前通过数据扰动实现隐私保护的有效手段[33].用户原本易识别的属性记录经过扰动会丧失独特性,从而隐藏在大量的记录中不被发现.根据差分隐私在联邦学习框架中的使用位置,差分隐私可以划分为中心化差分隐私、本地化差分隐私和分布式差分隐私.

2.1.1 中心化差分隐私

中心化差分隐私借助可信第三方,通过集中式数据存储与扰动实现隐私保护[34],其架构如图2所示:

图2 中心化差分隐私

在联邦学习的客户端-服务器架构中,通过添加拉普拉斯噪声、高斯噪声或指数机制等方式隐藏数据节点.中心化差分隐私方案能够实现用户级隐私,也就是说不会泄露参与联邦学习模型训练的用户.然而,这种机制要求必须存在可信的中央服务器,较为理想化.

2.1.2 本地化差分隐私

当不存在可信第三方或中央服务器时,隐私保护的训练过程完全在客户端本地实现,即本地化差分隐私,其架构如图3所示[34-35].本地化差分隐私没有中心服务器的参与,用户掌控自身数据的使用与发布,利于实现去中心化联邦学习.

图3 本地化差分隐私

但本地化差分隐私保护中需求的样本量极其庞大,为了提高训练准确度,往往需要收集海量样本数据才能实现.此外,维灾难导致本地化差分隐私很难平衡模型可用性、高效性与隐私性.

2.1.3 分布式差分隐私

分布式差分隐私设置若干个可信中间节点,并预先对部分用户数据进行聚合和扰动,传输给服务器的是加密处理的脱敏数据.王雷霞等人[36]提出一种安全混洗框架,该框架将加密运算尽量剥离开客户端,保证较少的本地资源消耗,转而设计客户端与服务器端之间的匿名化混洗步骤,保证基于少量噪声即实现较高级别的隐私保护.

分布式差分隐私解决方案兼具了本地化与中心化差分隐私的优势,既不需要可信服务器,也无需在本地添加过多噪声.但分布式差分隐私本身也有缺陷,即通信开销高且需要可信节点.

以上3种方法优缺点对比如表1所示:

表1 差分隐私类别比较

隐私保护技术单独使用得很少,现在更多的是混合式方法.Truex等人[37]利用差分隐私和安全多方计算训练出可以抵御推理攻击的学习模型,在2种隐私保护技术优势的叠加下联邦学习的隐私威胁大大降低.

2.2 过程加密

过程加密主要针对外部攻击对通信信道进行保护.较为常用的过程加密技术包括同态加密、秘密共享和可信执行环境.

2.2.1 同态加密

同态加密是指针对加密后的密文数据进行运算,该计算结果和原始数据经过特定计算后得到的结果一致[38].同态加密过程如图4所示:

图4 同态加密机制

同态加密不同于一般加密方案,一般的加密方案注重数据存储安全,密文结果需要妥善保管,以免导致解密失败.而同态加密的侧重点在于数据处理安全,它确保原始数据机密信息不被泄露,同时又能保证密文运算结果的有效性.

2.2.2 秘密共享

秘密共享是一种秘密分割存储技术,是安全多方计算中的重要机制,其目的是抵御多方合谋与入侵.秘密共享的核心思想是通过特定预算,将秘密拆分,并将其分发给各参与方.常见的秘密分享方案有Shamir方案和Blakley方案等[39-40],最常使用的是门限秘密共享.

将秘密S分成n个子秘密并分配给n个参与方,只有集齐k个及以上子秘密才能还原出原始秘密S.Bonawitz等人[41]基于门限秘密共享设计了一种安全聚合方案,该方案在诚实且好奇的服务器背景下保证各参与方的数据安全.同时,计算量和通信开销也不高,特别适合联邦学习中的协同训练,但是该方案无法抵御共谋攻击.

对比以上2种手段,同态加密运算成本高,秘密共享在一定程度上可以弥补上述不足,但秘密共享需要进行多次通信,加剧了联邦学习的通信负担.

2.2.3 可信执行环境

可信执行环境(trusted execution environment, TEE)是一种提供可信执行环境的安全技术,该环境具备完整性、保密性和可验证性[42],具有计算和存储功能.TEE的使用场景有很多,其中最常见的是数字版权管理、金融支付、移动支付等方面.在联邦学习中,TEE技术被广泛应用于保护用户数据隐私,但是TEE对底层硬件设施的依赖性较高,更新升级时都需要同步到软硬件,不同厂商的TEE技术各异,行业标准也不一致,很难统一管理.

表2中,本文对比了以上列举的几种隐私保护手段.差分隐私计算复杂度低,通过扰动去除记录识别性,因此可以针对性地防御成员推断攻击.安全多方计算除了数据传输,还有大量的计算和操作需要在参与方之间协同完成,因此有更多额外通信开销.同态加密是一个较好的不共享原始数据也能进行数据分析的解决方案,但是由于同态加密需要额外计算,且存储开销大,使得目前阶段同态加密广泛采用的可行性并不高.

表2 隐私保护技术对比

从实际应用角度来说,各种隐私保护手段都有其局限性,需要在各个维度之间进行平衡.差分隐私需要在隐私保护和数据可用性之间进行平衡;同态加密需要在加密和解密操作的效率和安全性之间进行平衡;安全多方计算需要在参与方之间的信任关系和安全性之间进行平衡;可信执行环境需要在执行效率和安全性之间进行平衡.

3 结论与展望

本文回顾了近年来研究者对联邦学习隐私保护的研究成果,探究联邦学习中隐私泄露的原因以及常见的攻击表现形式.针对攻击特点进行分类,并针对性地提出隐私保护机制,归纳各类隐私保护技术的优缺点,为隐私保护研究提供脉络梳理.同时,归纳了以下联邦学习隐私保护具有前景的研究方向:

1) 平衡隐私保护和成本代价.每一种隐私保护技术都有自己的额外成本和影响,算法需要在隐私性、准确性以及运算效率之间相互权衡.探寻兼具隐私性、准确性和高效性的联邦学习算法是未来发展中的一个重要目标.构建量化体系,依据隐私攻击的程度量化隐私保护的程度,防止出现防御不足或过度的情况,保证隐私性和可用性相统一[43],同时考虑联邦学习模型的公平性[44].

2) 联邦学习的隐私保护标准化.当前联邦学习隐私保护中亟需建立隐私泄露和隐私保护程度的度量标准:一方面,整体的安全性取决于最薄弱的一个环节,联邦学习数据隐私泄露常常来自参与训练的恶意攻击者;另一方面,联邦学习隐私保护评估标准的缺失导致研究人员难以准确评估隐私保护设计方案的实际效果,用户也无法了解自身在系统中所受到的保护程度.因此,亟需在工业界和学术界从整体和系统角度进行隐私保护衡量标准的规范与定义.

3) 结合区块链等新技术对联邦学习分布式架构进行演化.例如,Warnat-Herresthal等人[45]结合边缘计算和群体学习(swarm learning)方法,实现了隐私保护下不同医疗机构之间数据的整合.该架构能够保证网络中成员的安全、透明和公平加入,不再需要中心服务器.显然,去中心化架构和高级别安全保障进一步保证了数据的隐私安全.

猜你喜欢
参与方同态攻击者
基于秘密分享的高效隐私保护四方机器学习方案
基于微分博弈的追逃问题最优策略设计
关于半模同态的分解*
拉回和推出的若干注记
正面迎接批判
一种基于LWE的同态加密方案
绿色农房建设伙伴关系模式初探
HES:一种更小公钥的同态加密算法
涉及多参与方的系统及方法权利要求的撰写
基于IPD模式的项目参与方利益分配研究