基于时空网众包构建深度伪造威胁的防御

2022-01-21 10:29张桦

现代计算机 2021年33期

张桦

（中共广州市委党校信息网络中心，广州 510070）

0 引言

深度伪造是“生成对抗网络”的产物，具有智能化和高度的逼真性，使得非当事人很难分辨真假。加之，制作成本低、品质高，这使得深度伪造愈发对社会、政治制度和商业构成重大威胁。自2017年Reddit用户发布Deepfake视频［1］后，深度伪造对社会产生了广泛的威胁。如深造伪造可以使新闻业面临巨大的公众信任问题；深度伪造可以通过传播政治宣传或破坏选举活动来威胁国家安全；深度伪造可能会妨碍公民对政府或权威机构发布信息的信任；深度伪造可以用于发布虚假信息进行市场操作；深度伪造还可进行身份欺诈等活动。

随着网络、信息技术的发展，人类生存除依赖于物理空间提供的基础物质外，愈发依赖于网络、信息所构建的网络空间，网络空间已经成为人类赖以生存的除物理空间外的第二大空间［2］。当前，深度伪造已在国外引起了重视，特别是在政治民主安全、社会公众安全、军事安全等方面［3-7］。

国内外对于深度伪造技术威胁的防御基本都处于起步阶段。在技术层面，主张通过自动检测技术（如基于深度学习的自动检测）或新技术（如基于区块链的验证系统）的方法检测、防御深度伪造［8-11］。标称深度伪造技术的检测准确率在71%～95%之间。在社科层面，主张通过可靠平台向社会科学研究人员发布大型社交媒体数据集，以研究错误虚假信息传播的解决方案［12-13］。在管理层面，主要是主张加强深度伪造的有关立法，明确媒体平台、创作者等的责任，制定切实可行的处罚措施［14-16］。

本文根据深度伪造生成的特点，结合目前最新研究成果，将技防和人防相结合，构建了基于时空网众包的深度伪造威胁防御体系。

1 相关定义

1.1 定义

参考文献［17-19］，定义如下：

定义1时空网众包任务。一个时空网众包任务被该任务的请求者发布,通常被定义为如下六元组的形式，记为，其中，lt表示该众包任务的位置；pt为该任务的网络地址（IP），st为该任务的发布时间；et为该任务的截止时间；rt为该任务发布的空间范围，即在此范围内的众包参与者才有机会接收到该任务；wt是完成该任务的权值（可以获得的奖励或效用，通常表示为任务的价格或奖金）。

对于任意的时空网众包任务，上述六元组中的前四者应必须被包括以标记此任务的时空网属性；是否包含后两者视具体应用而定。例如，某些任务希望众包平台的每位众包参与者都获知，则可去除此空间范围约束。另外，如果某些任务不为参与者带来任何奖励，也可删除该项内容。

此外，时空网众包参与者定义如下。

定义2时空网众包参与者。一位时空网众包参与者也被称为时空网众包工人，通常被定义为如下七元组的形式,记为t=，其中，li表示该参与者当前的空间位置；pi为此参与者的网络地址（IP），si为此参与者的抵达时空众包平台的时间；ei为该参与者预计离开时空众包平台的时间;ri为该参与者的空间服务范围，即对于该范围外的众包任务，此参与者将不能提供服务；ci代表该参与者计划承担的众包任务数量；qi度量该参与者提供服务的可信度，通常表示为历史任务守信率或历史累计失信率等形式。

与时空网众包任务的定义相似，对于任意时空网众包参与者的七元组，也是前五者应被包括，而后二者可视具体应用而定。注意：上述时空网众包任务与时空网众包参与者的定义皆为基础性定义，根据不同的应用需求，可在上述两个定义的基础上进行扩展。因此，基于上述定义，可将时空众包定义如下。

定义3时空网众包。时空网众包通常是指通过互联网设备实时地在时空网络空间众包平台上汇聚众包任务与众包参与者，并通过平台对众包任务进行分配调度与质量控制，从而使众包参与者在物理世界和网络空间共同完成众包任务并满足任务约束条件的过程。

综上所述，时空网众包旨在通过整合物理世界和网络空间中智能群体，组织其在网络空间中完成机器难以解决的问题，从而有效地利用人群智能与硅基智能的资源。

1.2 时空网众包与传统众包的关系

在深度伪造防御网络空间中，众包具有脱“虚”向“实”的作用。时空网众包的时、空、网属性，强调了在深度伪造防御中的真实性、可信度性和可追溯性。因此，时空网众包无论是在众包任务上、众包参与者，还是众包平台上都存在与传统众包的差异。

在众包任务上，传统众包任务更多地在于在网络空间中完成，而时空网的众包更关注于任务发生的现实世界。因而基于时间、地点和网络空间的任务使得第一现场成为辨别真伪的关键。在众包参与者方面，传统众包只需要在网络空间上即可参与，而时空网众包需要参与者跟众包任务发包方在时、空、网三者上具有临近约束或真相约束，参与渠道是使用平台的工人或用户。在众包平台上，传统众包无时空网约束，具有广泛性，而时空网众包平台，具有筛选性，且需要平台注重时空网数据的隐私处理。

2 可信时空众包防御的构建

在构建时空网众包的深度伪造防御时，首先注重深度伪造的使用者和典型的应用场景，然后着重从技术体系、社科体系和管理体系三个层面予以构建。

2.1 深度伪造威胁的防御

深度伪造从定义上着重于伪造现实，其威胁强调通过逼真的“欺诈性”来达成，使得深度伪造安全防御不同于常规网络安全防御，深度伪造安全防御更应该着重于“反欺诈性”。从深度伪造产生的源头分析，产生于机器学习算法，具体是“生成对抗网络”的产物，这使得其安全防御必须应对机器生成的“海量性”问题。

在构建针对深度伪造威胁的防御体系时，除了借鉴一般网络安全防御体系的构建，在结合深度伪造的生态体系和典型场景后，还要特别专注于深度伪造的特性。针对“反欺诈性”，必须给予现实的、真实的、可信的应证，而现实的、真实的、可信的应证正是人类所长，在构建深度伪造安全防御体系时，注重于“人的要素”的考虑，从社科层面和管理层面进行构建；针对“海量性”，必须给予批量的、可规模化的处理，这正是机器所长，注重于“技的要素”，从技术层面进行构建。三个层面相互融合，互为支撑，共同构建深度伪造威胁防御体系。

2.2 时空网众包防御的构建

构建时空网众包的深度伪造威胁防御体系，立足于人群群体智能计算对抗以硅基为基础的“云机”智能计算。在进行网络安全防御时，分别在管理层面、社科层面和技术层面进行可信众包防御体系构建。

2.2.1 时空网众包防御模型

从深度伪造的生态构成分析，不难发现深度伪造发生在网络空间信息发布、流通环节，如果深度伪造不借助网络空间发布和流通，其威胁就无从谈起。因此在构建时空网众包防御模型时，围绕深度伪造信息发布流通环节进行。如图1所示。

图1 可信时空网众包防御模型示意图

（1）平台用户通过平台渠道提交信息（该信息一定是未进行真假审核）。

（2）平台在收到该用户发布的信息后，进行基于时空网众包的生成工作，完成后进入（3）。

（3）进行时空网众包的任务分配，首先分配给“硅基”智能进行第一轮众包。即在技术层面，基于“硅基”智能计算通过自动检测技术或新技术等对时空网众包任务中时间St、空间位置lt、网络地址pt等信息按照一定的算法进行可信任务分配，在“硅基”智能对该信息进行判定后，将结果返回给平台，进入（4）。

（4）平台在收到“硅基”智能对该信息的判定结果后，对该信息进行分析，评估之前“硅基”智能对该类信息判定的可信度kt，把真实域中随机去重抽取比例at的该类信息和伪造域中该类信息作为人群智能时空网众包的输入，进入社科层面（5）。

（5）在社科层面，同样，平台根据时空网众包任务中时间St、空间位置lt、网络地址pt和可信度qi等信息按照一定的算法向平台工人用户分配众包任务，平台工人用户在领取任务后，通过“人群”智能计算进行判定，并将判定结果返回给平台，进入（6）。

（6）平台通过分析“人群”智能计算的结果，根据判定票数进行博弈判定。并根据判定结果修正、更新“硅基”智能计算样本集。进入（7）。

（7）平台判定结果，如果真实合规，则完成该用户请求发布该信息；如果是伪造合规，同样发布，但打上伪造标签（可对用户端透明，但平台必须标注自己清楚）；如果是伪造违约，则拒绝响应该用户请求，拒绝发布。进入（8）。

（8）发布后的信息，进入用户、公众和管理层面的视野。

（9）管理层面的立法、行规监督、检查、指导平台、用户的网络空间行为。

对于存量的网络空间信息需要真伪审核的，从（8）进入（1）由平台进行自动深度伪造防御流程。

2.2.2 任务生成及分配

任务分配是众包模式的研究热点问题之一，对于时空网众包任务而言，平台很容易获得请求用户的时空网属性：用户发起信息发布请求（称为任务发包方）的位置信息lt、网络地址（IP）信息pt，发起的时间St。根据任务发包方的时空网信息，构建该任务的平台众包任务工人集合S=

假设构建的m名该任务众包工人之间没有交互、相互独立，所以每次博弈都可以被视为零和博弈（都是众包工人对任务发包方真与假的判定）。对于任意工人si用zi表示该工人的博弈过程包含的总周期数。同时,用zij表示工人si的第j个博弈周期。众包工人接受众包任务需要激励机制，即构建任务权值wt。在社科领域对于一个人对于某项工作的胜任，一般是看能力和忠诚度。在众包任务权值时，引入工人的众包能力因子poweri和可信度因子honi，则工人si第j个任务的能力因子表示为powerij，可信度为honij，其中：

工人si的可信度首次接受任务时默认都是完全可信的，其后，根据工人si累计失信的次数k和累计失信的能力poweri,j-1生成。工人si第j个任务的权值表示为gij，生成权值集合：

其中：

2.2.3 质量控制

深度伪造时空网众包任务的质量控制，关键在于其众包工人集S的生成质量qg和判别质量aq（可信度）。生成质量依赖于众包工人的能力因子power，设生成质量控制阈值q0，power≥q0。判别质量aq依赖于众包工人的可信度hon，假设判别质量控制阈值a0，hon≥a0。

由于众包工人之间相互独立，且众包工人每次博弈结果只有两种真与假，且众包工人si判别正确的概率，即m个众包工人发生的概率互斥且和为1，服从多项式分布。由多项式分布的期望E(Si)=nvi、方差var(si)=nvi(1-vi)和协方差Cov(si,sj)=-nvi vj，n为众包工人n次博弈周期且对角线上的元素为各众包工人的方差。由此可以以协方差矩阵的数值量化时空网众包的任务质量情况。

2.2.4 隐私保护

构建时空网众包深度防御，其隐私保护是内在要求，既保护众包参与者的时空网信息,又可根据众包参与者保护后的时空网信息指导其有效地完成任务是众包平台自身的建设的内在要求，其本质是平台信息隐私保护。有关信息隐私保护的研究众多，技术上有各种加密算法、方法和处理模型，将信息进行脱敏处理；平台和管理上有“数据合规”、网络、数据安全法规。这是目前网络空间隐私保护研究的话题。

在构建时空网众包深度伪造威胁防御时，本文已充分考虑了平台对参与者时空网信息的有效利用，对于时空网信息的隐私保护，众包平台重在使用其价值，并非对时空网信息的拥有。因此对于众包平台时空网信息的隐私保护，在对时空网信息进行已有技术脱敏处理的同时，加大社科和管理层面制度建设构建众包平台隐私保护的“黑匣子”，即基于时空网信息任务的生成、分配只能在“黑匣子”内完成，将结果输出至平台，且“黑匣子”的开启只能在平台注册的第三方数据局，平台只管对其任务判定结果的使用。如图2虚线方框内为“黑匣子”部分所示。

图2 时空网众包平台的“黑匣子”示意图

3 实验论证

居民垃圾投放是居民生活必不可少的日常行为，垃圾分类是居民垃圾投放的重要手段。最近对于垃圾分类的讨论在各社区议论纷纷，有人发起图文并茂的“伪垃圾分类说”——居民垃圾分类投放，而垃圾运输车无分类，均是同一个车运走，垃圾分类只是给居民造成投递麻烦，根本没有分类的效果。为判定这类居民图文的说话是否属实——即是否是居民分类投放，而垃圾车运输车却无分类，同一车混装运输。拟采用本文的深度伪造判别法来对事实进行判别，以验证本文时空网众包深度伪造防御的有效性。

3.1 实验设计

（1）该社区根据上级主管部门要求，垃圾分为两类：餐厨垃圾和其他垃圾。

（2）垃圾运输车分为两类：餐厨垃圾运输车和其他垃圾运输车，车型、大小、外观均相同，只是餐厨垃圾运输车车厢侧面有“餐厨垃圾”白色字样，而其他垃圾运输车则没有任何提示字样。

（3）该社区垃圾运输车每天来2次，上午9:30～10:00，晚上9:30～10:00。

（4）该社区居民垃圾分类定时投放点和误时投放点均在该社区同一个地方，且社区无其他垃圾分类投放点。居民定时投放时间是：上午7:00～9:00，晚上7:00～9:00，其他时间为误时投放，定时投放时间有垃圾分类指导员，误时投放则没有指导员。

3.2 实例化参数

首先构建该社区的伪垃圾分类时空网众包平台，3公里以内的平台众包工人分布均匀。

将原图文并茂的伪垃圾分类说进行伪造，换其他社区真实图片10份，修改部分文字标点10份，总计21份任务。

平台内众包工人的首次使用初始化时，众包工人在注册时均能获取众包工人的地理位置、网络地址（IP）和注册时间。根据3.4.2节，刚开始平台众包工人的可信度均为hon=100，归一化可信度为hon=100∕100=1，工作能力取简单的欧几里得距离。

△li为用户注册的位置与众包任务中事件位置的空间距离差。△pi为用户注册的IP与众包任务发布IP的地理位置空间距离差，△si为用户最近一次登陆平台的时间或在线时间与众包任务的时间差。gij初始时取值工作能力的初始取值。如下：

3.3 实验结果

通过平台的计算的时空网众包平台，向任务发生位置3公里内的用户发布众包任务——判定该社区表内的图文并茂的“伪垃圾分类说”是否属实。向1050个用户发出众包任务，有759个用户浏览了该任务，最后由178个用户完成了众包任务，其中有128位判定“伪垃圾分类说”为假，其众包任务的权值之和WF=0.051；50位判定为真，其众包任务的权值之和WT=0.083，由于众包任务权值WT＞WF，时空网众包任务最终判定结果为该社区群“伪垃圾分类说”为假。事后实地考证，结果是餐厨垃圾和其他垃圾是分类运输的，图文伪造了其他垃圾车身，在其他垃圾车身PS了餐厨垃圾的车身字样，差别细小，极具伪造性。

4 结语

本着审查、可追溯和注重隐私保护的原则，探讨了深度伪造防御问题，着重基于时空网众包以人群智能的所长，应对机器智能深度伪造的所长，这对深度伪造的“欺诈性”做了很好的回应，将网络空间脱实向虚发展和威胁防御需要的脱虚向实发展结合起来。设计的时空网众包具有鲜明的地域特色，旨在平台信息发布处就截住虚假的深度伪造信息，实验论证具有良好的网络效果。对于防御体系的管理层面，更多的是合规和立法方面的内容，本文没有做过多的探讨，因为对于法条的实用性、针对性、可操作性和法学原理的论证、解释、说明不是本文的重点。需要说明的是，在管理层面，在于法规的精准有效。在基于时空网众包的防御体系中，法规需抓住如下几个关键：

（1）各信息发布平台、应用等发布信息都不得收集用户隐私信息，对于任何含有隐私的信息都必须有独立于平台和应用的“黑匣子”的判定，该“黑匣子”的监管独立于平台和应用，平台和应用只有使用其输出结果的权力和执行共同监督的权力。

（2）对于深度伪造的合规信息，必须有明确的标识，至少是在监管视图内有明确标识，对于用户视图为了更好的娱乐性和经济效益，可以屏蔽该标识。

（3）对于实时性的把握，本文显得不足。此外，多少量值的任务完成才使得任务有效和终止，是需要大量实验的累计和实践。因此，本文的防御体系暂时不宜发生在涉及国计民生的政府新闻媒体和宣传、国防安全、应急管理等方面，但对于众多普通网民防御深度伪造的威胁具有针对性。同时，在兼容社会效率和干净可控的网络空间如何找到合适的取舍也是下一步研究的重要内容。