生成式人工智能服务提供者的数据安全保护义务研究

2024-01-25 23:09王良顺

南昌大学学报（人文社会科学版） 2023年6期

王良顺李想

(中南财经政法大学刑事司法学院,湖北武汉 430073)

一、问题的提出

科技迭代促使人工智能迅猛发展,生成式人工智能作为一种新的技术范式应运而生。ChatGPT是由Open AI开发的一种大语言文本智能对话模型,其可以根据接收到的指令理解和生成文本、图片、声音、视频、代码等内容[1]69。ChatGPT的横空出世表征人工智能技术正在发生快速的升级革新,这项技术的进一步成熟和落地为元宇宙的普及与应用清扫了诸多障碍,将元宇宙的实现至少提前了10年[2]。然而,以ChatGPT为代表的生成式人工智能在推进社会繁荣的同时,由之触发的风险会接踵而至。2020年3月,中共中央、国务院印发的《关于构建更加完善的要素市场化配置体制机制的意见》将数据要素与土地、劳动力、资本、技术四大传统生产力要素并列,这表明在我国数据已成为重塑社会公众生活、推进各经济实体创新乃至国家经济发展的重要动力源泉。从生成式人工智能的运行机理来看,其语料库的数据获取、语言模型的训练与最终文本的输出等各个环节都依赖于大量的数据处理,而大规模数据的流动、聚合与分析势必蕴含巨大的数据安全风险[3]107。意大利数据保护局正是因为ChatGPT存在极大的数据安全风险,才宣布封禁ChatGPT的使用[4]456。如果生成式人工智能附随的数据安全问题得不到及时解决,不仅会危及个人的人格利益或企业的经济利益,而且会给公共利益与国家安全造成难以估量的损害。因此,应认真审视生成式人工智能的数据安全问题,并构建合理的数据风险治理模式予以应对。

倘若缺乏明确的责任主体与义务约束,贸然将生成式人工智能大规模应用于公众的虚拟社交场景,必定会引发一系列数据安全事件。生成式人工智能责任论认为,生成式人工智能已具有类人化的自主意识和辨认控制能力,具备成为法律责任主体的资格[5]33。事实上,所谓生成式人工智能的自主意识和辨认控制能力只不过是算法运行的外在表象,它的用户指定的参数和它被训练的数据最终定义了它的决策和输出[6]107。由此可见,生成式人工智能仅仅是一种工具,其行为射程和效用状态仍然要服务于服务提供者和使用者的特定利益需求,故最终可能承担法律责任的主体应是与之相关的服务提供者或使用者。探究生成式人工智能发生数据安全事件的原因,往往是因为服务提供者怠于履行数据安全保护职责所致。例如,近期ChatGPT因为一个开源库中有一个错误导致用户的支付相关信息意外可见,而Open AI公司在安全事件发生的九小时后才关闭服务,致使大量数据泄露[7]。基于从源头防范数据安全风险的治理逻辑,作为在数据安全治理格局中发挥核心角色的服务提供者在享有相应利益的同时也应承担数据安全保护义务。2023年7月颁布的《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)将数据安全保护义务这一积极义务施予了生成式人工智能的服务提供者,自此我国正式从制度层面确立起“以服务提供者义务为中心”的生成式人工智能数据安全治理模式(1)数据安全保护义务是指有关组织或个人负有的采取必要措施,保护数据的安全,从而防止未经授权的访问以及数据的泄露、篡改、丢失,并在已经或可能发生数据泄露、篡改、丢失时采取相应补救措施的义务。参见程啸:《论数据安全保护义务》,《比较法研究》,2023年第2期,第60—61页。《暂行办法》虽然没有明文规定生成式人工智能的服务提供者应承担数据安全保护义务,但依据《数据安全法》第二十七条之规定,只要实施数据处理活动,任何组织和个人均应履行相应的数据安全保护义务;又根据《暂行办法》第七条,服务提供者是开展生成式人工智能数据预训练、优化训练等数据处理活动的主体,因而让生成式人工智能的服务提供者承担数据安全保护义务具有实定法依据。。作为生成式人工智能数据安全保护的义务主体,如果服务提供者未履行数据安全保护义务,理应承担包括刑事责任在内的法律责任。然而,生成式人工智能的服务提供者承担数据安全保护义务的理据何在,服务提供者的数据安全保护义务包括哪些事项,以及服务提供者未履行数据安全保护义务的法律责任又该如何配置,这些关键问题《暂行办法》都未进行明释。因此,亟须从理论上明确生成式人工智能服务提供者的数据安全保护义务及其法律责任。但是,目前学界大多是在讨论生成式人工智能的技术风险时附带性提及数据安全问题,对生成式人工智能数据安全问题的专门性研究略显薄弱,特别是基于积极义务视角探讨生成式人工智能数据安全风险的治理策略的理论研究几乎处于空白。鉴于此,笔者拟以《暂行办法》为指引,结合《数据安全法》《个人信息保护法》《网络安全法》等法律的相关规定对前述问题展开分析,以期弥补理论缺憾与对司法实务有所裨益。

二、服务提供者承担数据安全保护义务的正当性基础

义务制度构建的前提在于找准角色定位,《暂行办法》的相关规定为生成式人工智能服务提供者承担数据安全保护义务提供了规范依据支持。理由是将人的行为与规则联系起来的最佳纽带,如果某个法律规范系统缺少理由来支持或证成自身行动,它就连被考虑的资格都没有[8]48。因此,服务提供者承担数据安全保护义务的正当性基础是什么,仍待进一步探究。

(一)服务提供者处于数据控制者的角色地位

海量的高质量语料基础是生成式人工智能技术突破的关键,而服务提供者是生成式人工智能语料库数据来源筛选与控制的主体。ChatGPT的语料体系由预训练语料集和微调语料集组成,其中预训练语料集主要来源于Common Crawl数据集、英文维基百科数据、WebText语料库、Reddit链接、书籍、报纸杂志等。微调语料集包括代码微调语料和对话微调语料。前者由多种编程语言撰写的代码、代码中的注释和说明文件构成,后者则囊括了生成、问答和聊天等超过九种类型的标注数据[9]8。依据数据的来源,可以大致将数据分为公有领域的数据、获得个人授权的数据与未经个人授权的数据。对于不承载个人信息权益与不影响公共安全、国家安全的公有数据,服务提供者可以不受限制地使用和加工。但这类数据未必都是准确、真实的数据,在纳入语料库时,服务提供者应进行严格甄别。服务提供者处理获得个人授权的数据的正当性根据来自合同约定,在处理过程中应推动个人信息的匿名化处理,保障个人数据的信息安全和个人隐私。如果服务提供者利用网络爬虫技术爬取个人数据而未经个人授权,由于这类数据作为初始数据本身就已经构成侵权,服务提供者再对其进行加工并训练数据语料库模型的行为就处于非法获取的延长线上。由此可见,除生成式人工智能服务提供者之外的其他主体并无任何权限控制数据的来源,仅服务提供者有权决定哪些数据可以纳入语料库。这种特殊的优势地位要求服务提供者对于语料库的数据不能局限于被动的事后管理,也要事前积极审查数据来源的合法性与真实性,当生成式人工智能的数据来源出现合法性与真实性偏差时,作为控制数据来源主体的服务提供者就应对此负责。

算法是生成式人工智能得以开展海量数据训练的基础,而服务提供者是生成式人工智能算法设计或部署的主体。以ChatGPT为代表的生成式人工智能是一种由生成式预训练和算法语言转换相结合的内容生成式人工智能,其工作的基本原理是:预先对既有的文本语料进行自主学习训练,然后通过Transformer模型构建与人类表达方式和逻辑高度类似的语言算法模型,从而在特定场景根据服务使用者的指令输出高质量的结果[10]52。算法作为ChatGPT等生成式人工智能运行的底层逻辑,具有极强的专业性,使得非专业人士无法掌握或理解算法的运行和决策原理,很容易在专业人士与非专业人士之间形成技术鸿沟。专业人士可以借助诸如逆向工程等技术方法触摸到算法的底层逻辑,并通过机械可解释性方法以可视化、可交互的形式显示其成果[11]。服务提供者作为生成式人工智能的算法设计者、部署者,相比于服务使用者或者其他主体具有更加明显的专业技术优势,实际上直接控制支配了用户所能接收到的数据范围和内容,具有极强的数据安全保护能力,能够从源头上更为便捷地化解生成式人工智能的数据安全风险。这迫使政府不得不转变角色,以立法形式构建起一套“以服务提供者义务为中心”的生成式人工智能数据安全治理模式,即通过施予作为数据实际控制者的服务提供者以相应的数据安全保护义务,确保生成式人工智能的语料体系始终处于有效保护与合法利用的状态。

(二)服务提供者需要履行数据财产权的社会义务

随着信息时代的到来与数字经济的勃兴,我国在国家政策层面和立法层面都存在数据确权的需求。自从2020年3月数据成为一种新型生产要素后,同年5月公布的《民法典》第一百二十七条便将数据原则性地规定为一项新兴的财产权客体,但具体法律规则阙如而使得数据财产利益仍处于权利化的进程中。为推动数据基础制度建设和充分释放数据要素价值,中共中央、国务院于2022年12月印发《关于构建数据基础制度更好发挥数据要素作用的意见》(以下称“数据二十条”),明确提出“建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制”。这一政策性文件的出台标志着我国正式确立了“三权分置”数据产权制度框架。然而,在解读“数据二十条”的过程中,学界形成了两种截然相反的立场:反对数据确权与主张确立数据产权是一项新型财产权[12]1。笔者采取数据确权肯定论的立场,即数据之上直接承载的权益主要体现为一种财产权益。

《数据安全法》第三条将数据与信息区分为两个不同的事物,借用康德的概念体系,信息没有被记录前是一种不可知的“自在之物”,而以电子或者其他方式记录的信息则是一种感性直观的“现象之物”[13]47-48。在作出以上区分之后,可以推断,以零碎化形态存在并被人们所捕获的信息不符合数字化利用的需要,信息的数据化是信息在大数据时代成为可用之物的关键。洛克的劳动财产权理论认为,要使某个事物摆脱自然属性而变成专属于他个人的财产,他就应在这个事物中掺进自己的劳动[14]123。在数据处理活动中,数据处理者需要长期辛勤劳作和付出巨大成本以将弥散在社会中的原始信息不断地转化为数据,同时要在保障数据安全、提升数据质量等方面持续投入大量资源。数据处理者在获取原始信息后所实施的一系列对数据的存储、保管和清洗加工等劳动行为改变了原始信息的自然状态,使蕴藏在原始信息中的财产价值不断凝聚。一如洛克的劳动财产权理论,没有以电子或者其他方式记录的信息以非数据形式存在,属于自然状态下的消极共有物(即便不属于自然状态下的消极共有物,但至少不能视为服务提供者的个人财产);服务提供者利用生成式人工智能而实施的数据处理行为将信息数据化可被算法利用,应归类为洛克眼中的劳动行为,其通过对原始信息附加自己的劳动而获得了相应的数据财产权。

服务提供者对生成式人工智能语料库中的数据享有数据财产权,同时要负担与这种私人财产性权利相对应的社会义务。古典自由主义的“财产权绝对”观念,是近代以来法律保护财产权的思想基础。例如,在最具典型性的伟大启蒙思想家洛克看来,“只要他确定了对财产的所有权,就没有人能够从他手中夺走对土地的所有权”[14]127。但是,让财产权走向完全的自由张扬反而会与社会形成对立而最终导致财产自由的毁灭,故“财产权绝对”观念引发了学界的激烈批驳。例如,“财产权绝对”观念虽然得到了《德国民法典》第九百零三条的确认,但在《德国民法典》第一草案的讨论中,基尔克、门格等人就指出“此种想法是违反文化的一种荒谬”,会“损害关于等级、传统及信念和道德上对家乡热爱的稳定”[15]243。受社会本位主义的冲击和影响,以保护私人自由为中心的古典自由主义的财产法理念开始让位于财产权的社会关联性。法国《人权宣言》第十七条规定“私人财产神圣不可侵犯,除非当合法认定的公共需要所显然必需”,就是“财产权负有社会义务”观念最为生动的体现。目前,我国为了公共利益而让财产权人承担社会义务的立法例已不胜枚举。例如,土地是人类生存不可或缺的资源,具有易破坏性和不易回复性等特质,所以《土地管理法》第十条规定享有土地利益的使用者有保护、管理和合理利用土地的义务,而不能在土地遭受破坏时袖手旁观。在百年未有之大变局和信息革命的双重影响下,数据已成为我国的国家基础性战略资源和新型生产要素,数据安全不仅关系到我国经济高质量发展和国家社会安全,而且在很大程度上会带来国际格局的变化。在此背景下,《暂行办法》要求享有数据利益的服务提供者承担数据安全保护义务,化解生成式人工智能蕴含的数据安全风险,这种数据安全保护义务即是在履行数据财产权的社会义务。

(三)服务提供者处理的数据系属国家基础性战略资源

数据往往关系国家安全、经济发展与社会公共利益,已经成为各国的基础性战略资源。中国共产党的第二十次全国代表大会报告明确指出“国家安全是民族复兴的根基”,并对国家安全作了系统性阐述。总体国家安全观是国家从治国理政总体布局的高度强化对国家安全的保护,对于我们认识和处理新时代变局下的国家安全问题具有重大指导意义,而维护数据安全则是总体国家安全观的题中应有之义。在总体国家安全观方法论这一系统思维的指引下,《数据安全法》构建了一个包含数据基本要素与数据基本子制度的数据安全制度模型,以为防范与化解数据安全风险,强化数据资源全生命周期安全提供法律支持[16]31。《数据安全法》第二十一条依据数据对国家安全、公共安全影响程度以及出现数据安全事件后造成的危害后果,对数据自上而下地划定了两个主要的数据类型,即重要数据和一般数据(2)《数据安全法》第二十一条出现“核心数据”一词,但整个《数据安全法》仅在此处出现一次。目前学界存在两种认识。一是核心数据独立于重要数据之外。参见王玎:《论数据处理者的数据安全保护义务》,《当代法学》2023年第2期,第43页。二是核心数据是重要数据中的重要数据。参见洪延青:《国家安全视野中的数据分类分级保护》,《中国法律评论》2021年第5期,第75页。如果持第一种见解,《数据安全法》就应对核心数据设计相应的监管规定,但立法并未如此,因而本文采取第二种观点。。“重要数据”概念虽然是于2016年11月出台的《网络安全法》首次提出,但直到2017年4月,由国家互联网信息办公室颁布的《个人信息和重要数据出境安全评估办法(征求意见稿)》(以下简称《数据出境安全评估办法(征求意见稿)》)第十七条才对此作出界定。尽管2022年7月出台的《数据出境安全评估办法》对“重要数据”的定义与《数据出境安全评估办法(征求意见稿)》并不完全一致,但两者均肯定重要数据是指那些与公共利益(包括国家利益与社会利益)紧密相关的重要数据资源,一旦遭受窃取、泄露或非法利用将会给公共利益造成重大损失,严重的会危及国家安全。又根据《数据出境安全评估办法》第四条之规定,如果一般数据达到一定体量,也会与公共利益产生联系。生成式人工智能的技术框架来自境外,技术模型主要是基于西方价值观设计,其所依赖的技术底层逻辑也即算法在被设计和编写的过程中带有先天性的西方价值偏向[17]6,易受欧美国家行为体、非国家行为体的操控。现代数字技术通过与资本的合流于事实层面加速推进世界由分散向全球化演进,并在这一过程中形成了技术、经济、政治一体化的复合型霸权主义[18]65。这种新型霸权主义可能会从与传统不同的维度影响数字主权,并通过数据安全的缓慢渗透继而危及一国的国家安全。高度智能化的生成式人工智能可能经由强大的数据检索和分析能力,通过关键词提示等方式有针对性地大范围收集数据而生成关键设施位置、重大政策倾向等国家重要数据。例如,生成式人工智能设计国的政府完全可能借助生成式人工智能技术有针对性地收集我国军事、金融、能源、电信、港口运输等重要领域的重要数据。一旦我国的这些重要数据被他国非法获取并进行算法技术分析,将会对我国国家安全、社会安全造成毁灭性打击。因此,从控制我国的数据外泄、保障我国数据主权完整、促进我国经济繁荣等角度,为服务提供者设定数据安全保护义务具有充分的正当性。

三、服务提供者数据安全保护义务的类型及其内容

根据《暂行办法》第七条第(五)项,服务提供者所需要履行的数据安全保护义务的基本内容主要由《数据安全法》《个人信息保护法》《网络安全法》确定。遗憾的是,这些法律规范对于数据安全保护义务的规定不仅表现出较强的抽象特征(例如,《数据安全法》第二十七条规定应采取技术措施保障数据安全,但需要采取什么技术措施该法并没有明确),而且分散于各个法律规范中的义务内容还存在一定的交叉与竞合。因此,有必要将生成式人工智能服务提供者应当履行的数据安全保护义务加以整理并进行类型化。根据服务提供者义务履行的时间节点,即是否发生数据安全事件,可以将数据安全保护义务划分为技术安全保障与数据风险管理的事前防范义务,以及发生数据安全事件后立即采取处置措施并及时告知报告的事后处置义务。

(一)事前防范义务:技术安全保障与数据风险管理

1.技术安全保障

生成式人工智能的服务提供者应当为数据安全提供技术支持,以有效化解生成式人工智能在数据安全保护方面面临的困境。技术措施是指服务提供者为确保生成式人工智能的数据处于安全状态所需要采取的各种技术方法或技术手段。《数据安全法》的相关规定、《网络安全法》第二十一条和《个人信息保护法》第五十一条都明确规定保护数据安全应当采取安全技术措施,并对数据安全的技术治理作出制度性擘画,这为生成式人工智能的数据安全保护提供了规范依据。首先,服务提供者需要对生成式人工智能的语料库采取加密技术措施。《网络安全法》第二十一条第(四)项和《个人信息保护法》第五十一条第(三)项都明确规定数据处理者对数据应当采取加密技术措施。数据加密是将可读取的数据以技术手段转化为不可读取的密文之过程,没有密钥便不能访问该数据,从而确保数据安全控制于得到授权的人员手中,避免他人未经授权访问或对之进行非法窃取、篡改等。因此,生成式人工智能的服务提供者需要通过加密技术的运用实现访问控制,确定可以读取数据、修改数据的主体。此外,《个人信息保护法》第七十三条第(三)项还要求数据处理者采取去标识化的技术措施。从我国《信息安全技术个人信息安全规范》(2020年第1号)第3.15条的表述逻辑来看,加密是去标识化的主要技术手段之一。因而加密与去标识化之间属于手段和目的的对应关系,即数据加密的目的就是为了去标识化,两者并不位于同一制度层面。其次,服务提供者需要对生成式人工智能的语料库采取防范技术措施。在生成式人工智能进行大规模的数据汇集、流通和分析过程中,语料库中存储的大量数据很可能会受到其他不法行为人的恶意攻击。例如,不法行为人可以通过逆向推导生成式人工智能模型的参数或训练数据,从而获取敏感信息或泄露隐私,或者通过访问生成式人工智能模型的解释信息来获取敏感数据[19]24。这些攻击均可能造成生成式人工智能语料库中的数据被窃取、删除和篡改等。所以,服务提供者需要采取防范技术措施提高系统免疫力,防止他人侵入生成式人工智能语料库中非法获取、删除、篡改相应的数据。最后,服务提供者需要对生成式人工智能系统采取监测技术措施。《数据安全法》第二十九条规定“开展数据处理活动应当加强风险监测”。《网络安全法》第二十一条第(三)项也作出类似规定,要求“采取监测、记录网络运行状态、网络安全事件的技术措施”。基于此,服务提供者应当对其提供的生成式人工智能服务产品采取相应的数据安全监测技术措施,以便能够及时发现并处置生成式人工智能可能潜在的数据安全风险,从而从源头提前预防数据泄露等数据安全事件的发生。如果服务提供者通过监测技术措施发现生成式人工智能存在数据安全隐患问题,其应当立即采取补救措施防止数据发生泄露或者被窃取、篡改。

2.数据风险管理

第一,服务提供者在开展生成式人工智能的预训练、优化训练等训练数据处理活动前应对数据处理影响进行评估。《数据安全法》第三十条规定重要数据的处理者应对其数据处理活动定期开展风险评估,这是因为重要数据一旦遭受泄露或被非法获取、利用,就很可能会危及国家安全、公共安全等重要利益。故此,当生成式人工智能服务提供者处理的是重要数据,应定期开展风险评估。倘若服务提供者处理的数据包含有个人信息,符合《个人信息保护法》第五十五条规定的五种特殊情形的,应进行事前个人信息保护影响评估。然而,对可能造成什么样的影响才需要进行评估,法律留下了空白。在此可以根据影响的对象与形态进行类型化考察:一是有无对个人产生有形的或无形的影响,前者主要包括个人的身体权益损害、经济损失等,后者主要包括名誉损害、社会性歧视等;二是有无对社会产生影响,如恶化营商环境等;三是有无对国家安全产生影响,如危及国家军事安全、国防安全等。《数据安全法》与《个人信息保护法》规定的数据安全风险评估制度虽然在功能与内容方面存在不同之处,但是两者的共同目的均是为了保护数据安全,在数据安全事件发生前消除可能存在或现实存在的数据安全风险。

第二,服务提供者需要对存储于生成式人工智能语料库中的数据进行分类管理。《网络安全法》第二十一条第(四)项规定网络运行者要采取数据分类措施,且《数据安全法》和《个人信息法》均要求数据安全风险评估报告中应当包括处理的数据种类。数据分类是指按照某种标准对数据进行归类(如数据的重要程度),方便数据处理者或者国家采取对应的保护措施。之所以要求服务提供者采取数据分类措施,是为了与其数据处理所面临的数据安全风险相适应。高风险意味着更重的义务与责任,如果服务提供者从事的是高风险的数据处理活动,则应采取更高规格的安全保护措施,承担更高的注意义务。例如,对于重要数据和敏感个人数据,服务提供者应当采取比一般数据更强的技术措施确保生成式人工智能语料库中的这类数据始终处于安全状态。服务提供者通过对数据进行分类,从而有利于在数据全生命周期安全内构建起轻重有别、重点突出的数据安全保护体系。

第三,服务提供者需要确定生成式人工智能的数据安全负责人和数据安全管理机构。明确数据安全负责人(或者个人信息保护负责人)和管理机构是服务提供者履行数据安全保护义务的法定内容之一:一方面,如果服务提供者处理的是重要数据,根据《数据安全保护法》第二十七条第二款之规定,服务提供者应当明确数据安全负责人和管理机构;另一方面,服务提供者处理的数据含有个人信息的,且个人信息的数量达到了国家网信部门的有关规定,根据《个人信息保护法》第五十二条第一款,服务提供者应当指定个人信息保护负责人。当然,服务提供者确定的数据安全负责人和个人信息保护负责人可以是同一主体。确定数据安全负责人(或者个人信息保护负责人)和管理机构的重要意义在于将数据安全保护作为一项基本义务内嵌于服务提供者的组织管理体系,从而让专职人员或专业机构监管服务提供者的数据处理行为,防止数据安全事件发生,推进数据安全保护的落地落实。《网络数据安全管理条例(征求意见稿)》第二十八条以有限列举的形式详细设计了重要数据处理中数据安全负责人和数据安全管理机构的六项职责。但截至目前,并没有一部法律法规、部门规章明确达到国家网信部门规定的数量究竟是多少。为缓解这种法律缺失困境,可以在参照《个人信息保护法》第四十条的基础上结合《数据出境安全评估办法》第四条第(二)项进行拟定,即服务提供者处理100万人以上个人信息的,就应指定个人信息保护负责人。

(二)事后处置义务:立即采取处置措施并及时告知报告

服务提供者通过监测技术措施发现生成式人工智能存在数据安全风险后,应立即采取补救措施消除风险。这里的补救措施是针对生成式人工智能的数据安全缺陷、漏洞等数据安全风险而言的,既包括技术措施,如修复生成式人工智能的系统漏洞、对语料库的数据进行加密;也包括组织措施,如重新确定数据安全负责人或数据安全管理机构等。这些举措都属于一种事前的防范义务。服务提供者所需要履行的事后处置义务与事前防范义务不同。首先,在生成式人工智能已经现实性发生数据安全事件的情况下,服务提供者应立即采取处置措施,防止危害结果进一步扩大,并及时告知用户以及向有关主管部门报告。可见,只有在生成式人工智能出现数据安全事件的情况下,服务提供者方才需要采取处置措施。所谓数据安全事件,是指由于人为原因(如工作人员的疏忽或者黑客攻击)、生成式人工智能的系统缺陷或故障(如ChatGPT的开源库错误)等,导致语料库的数据发生泄露或被窃取、篡改等对社会造成负面影响的事件。从概念本身进行解读,生成式人工智能发生数据安全事件的原因归纳起来主要有三类:一是生成式人工智能本身的系统缺陷或故障;二是服务提供者组织内部的人为失误;三是来自外界的黑客等恶意攻击。服务提供者需要立即采取的处置措施包括暂停服务、修复程序漏洞等,阻止危害结果进一步扩大,减少或者消除因数据安全事件给他人合法权益、社会利益和国家安全等带来的不利影响。其次,如果数据中包含有个人信息,还应遵守《个人信息保护法》的相关规定。《个人信息保护法》第五十七条规定的补救措施应作广义理解,既包括存在数据安全风险时所需要采取的补救措施,还包括在发生数据安全事件后应采取的处置措施,以此才能与“发生或者可能发生”的含义相适应。最后,与《数据安全法》不同,在《个人信息保护法》中,不论是已经现实性发生个人信息安全事件,还是仅存在个人信息安全风险,都需要通知履行个人信息保护职责的部门和个人。此外,如果现实性发生了个人信息安全事件,《数据安全法》要求按照规定及时告知用户并向有关主管部门报告,而依据《个人信息保护法》并不需要及时告知个人,但履行个人信息保护职责的部门认为可能造成危害而要求通知个人的除外。从表面看来,两个法律规范之间对发生数据安全事件后的通知对象存在矛盾,但事实并非如此。由于《个人信息保护法》相对《数据安全法》来说属特别法,因而在涉及个人信息的场景应优先适用《个人信息保护法》。赋予生成式人工智能服务提供者通知义务,意义不仅在于促使服务提供者认识到发生数据安全事件将提高其经营成本,还能反向督促服务提供者在生成式人工智能发生数据安全事件前采取更为有效的数据安全保护措施。

四、服务提供者未履行数据安全保护义务的法律责任

我国现行的民法、行政法、刑法能够在某种程度上对服务提供者未履行数据安全保护义务的法律责任进行分散追责,但尚未形成周延的法律责任体系。如果缺乏整体法秩序意义上的理论认识与体系规制,就容易导致服务提供者法律责任的片段化。故在对服务提供者未履行数据安全保护义务的法律责任进行分别性界定的基础上,还应注重不同法律责任之间的体系衔接与功能协同。

(一)义务违反的法律责任配置

服务提供者因未履行数据安全保护义务而对个人利益、公共利益造成实质危害的场合,其在承担侵权和违约的私法责任的同时也可能需要承担公法责任。在承认私法与公法二元结构划分之前提下,民法属于私法,而行政法与刑法系属公法,公法与私法对应的法律责任分别是私法责任与公法责任。社会和谐是中国特色社会主义的本质属性,法治为社会和谐提供保障,国家为了维护社会安定有序而建构的整体法秩序都是以保护法益为己任,公法和私法都概莫能外。依据《暂行办法》第二十一条、《数据安全法》第五十二条之规定,服务提供者未履行数据安全保护义务而发生数据安全事件的,从法律归责的视角出发,服务提供者可能既要承担私法责任,又要承担公法责任。由此可见,服务提供者的数据安全保护义务是一个横跨民法、行政法、刑法领域的问题,各部门法对于服务提供者未履行数据安全保护义务的调整存在多种法律责任的交叉与竞合。因此,在对服务提供者的具体法律责任予以分别性界定的同时,应注意防止不同法律责任之间的体系衔接错位。公法责任是国家权力机关对不法者行为的否定性评价,其主要目的体现在惩罚和预防,私法责任是平等民事主体之间因法律规定而形成的法律关系,主要是为了实现个人权益的救济和补偿。由于法律功能的内生性差异,对同一行为的公法责任与私法责任通常会作并科处理,两者不存在竞合问题。但是,公法责任通常具有比私法责任更为鲜明的强制性色彩,对行为人的影响要更加显著,故而公法责任通常是对私法责任的保障。然而,中国国家治理在整体布局上偏爱于有立竿见影效果的公法,对民法等私法的适用关注度不够或者相对被动,当下大量行政性法律法规的出台、积极刑法立法观的盛行就是最真实的写照。注重公法治理对于防控社会风险、维护社会稳定方面固然效果要更加明显,但权力的过度膨胀可能会对公民权利有所损害。为了更好地保障公民权利,对于各类违法失范行为的治理应优先启用私法,而不是动辄入罪入刑[20]45。据此,应从强制力或者调控手段上使服务提供者未履行数据安全保护义务的法律责任呈现阶梯性,即私法责任具有基础性地位,公法责任只是保障,而不能将各种法律责任置于一种简单耦合的状态。

私法责任的救济和补偿功能存在先天缺陷,故在私法保护法益不充分的情况下需要动用公法进行保障。其一,生成式人工智能服务提供者因未履行数据安全保护义务而造成数据主体权益损害的,在民事责任层面需要承担高昂的金钱赔偿,其会为自己的不作为付出巨大代价。但针对生成式人工智能庞大体量的数据主体来说,个体的权益救济往往是象征性的。例如,假设Open AI公司没有采取任何防范技术措施防止他人侵入ChatGPT系统,攻击者通过ChatGPT系统的数据安全保护漏洞窃取了大量数据,造成1000万人次的个人数据泄露。如果最终Open AI公司需要支付的民事赔偿金额是1000万元,但由于群体数量过于庞大最终均摊到利益受损害的个体手中的金额可能仅有1元,对于个体的权益救济几乎没有意义。其二,如果服务提供者所处理的是非个人数据,在其未履行数据安全保护义务而导致数据安全事件发生,危及社会利益与国家利益的场合,私法对于法益的保护基本上处于失灵状态。这是因为不论是侵权责任还是违约责任均是对个人权益的救济,私法的触角延伸不到超个人法益领域。其三,《数据安全法》的立法目的不仅是强化个人、组织合法数据权益的法律保护,更在于维护国家主权、安全和发展利益(《数据安全法》第一条)。即使服务提供者处理的是个人数据,但如果这些数据涉及国家安全和发展利益,服务提供者未履行数据安全保护义务而导致这些数据泄露或被窃取、篡改的,仅让其承担民事责任未免有失公允。在确定私法责任扩张的这一基调后,公法责任自然就处在服务提供者未履行数据安全保护义务法律责任的保障性地位。在公法责任内部,由于只有当其他非刑事惩罚手段在解决社会问题不起作用的情况下,刑法才被允许使用,因而在服务提供者未履行数据安全保护义务的公法责任分配中刑法不宜担当第一责任,其只是一种补充性的制裁手段。由此看来,行政责任应是民事责任的辅助,当行政处罚能够有效应对生成式人工智能的数据安全风险时,就不要启用刑事手段干预,刑事责任是对行政法律保护数据安全不周延的最后性补充。

总而言之,在整体法秩序的视野下,对于生成式人工智能服务提供者未履行数据安全保护义务的法律责任体系之构建,私法责任是基础,公法责任则是保障;而公法责任中行政责任是辅助,刑事责任只是补充。这一梯度性法律责任配置完全符合《数据安全法》第五十二条的条文逻辑,即服务提供者未履行数据安全保护义务的不作为行为在不构成刑事犯罪的情况下,属于违反治安管理行为的可以依法给予行政处罚,但不得将行政违法人为拔高为刑事犯罪。而对于服务提供者行政责任或者刑事责任的追究并不影响其民事责任的承担,但是当承担民事责任已经足够修复被侵害法益的情况下,就不应再追究服务提供者的行政责任乃至刑事责任。

(二)义务违反的法律归责限度

数据安全涉及有效保护与合法利用两个面向。《数据安全法》强调“国家统筹发展和安全,坚持以数据开发利用和产业发展促进数据安全,以数据安全保障数据开发利用和产业发展”。《网络数据安全管理条例(征求意见稿)》进一步提出“坚持促进数据开发利用与保障数据安全并重”的基本原则。具有数据安全风险只是表明生成式人工智能的数据可能会遭受泄露或被窃取、篡改等,但并不一定会发生数据安全事件,即使发生数据安全事件也不一定产生刑事可罚性,在法益侵害未构成犯罪的场合则可能受到民法或行政法调整。如果服务提供者未履行数据安全保护义务就要承担相应的法律责任,就会因为法律的管辖范围过于宽泛而反向限制生成式人工智能服务提供者对数据的获取、使用或处理,进而影响人工智能产业的发展。据此,对未履行数据安全保护义务的服务提供者采取结果主义的违法责任模式,不仅有助于激励生成式人工智能产业的创新发展,也可以防止陷入“不实施行为即违法”的无边界法律之困境。以下笔者基于结果主义的违法责任模式的逻辑路径,就服务提供者未履行数据安全保护义务的法律归责问题展开分析。

1.服务提供者未履行数据安全保护义务的民事归责

服务提供者未履行数据安全保护义务的民事责任囊括侵权责任与违约责任。由于违约责任需要服务提供者与数据主体在有效的合同中加以约定,并适用《民法典》“合同编”的相关规定,故本部分主要探讨服务提供者未履行数据安全保护义务而致他人人身利益、财产利益损害的侵权责任问题。“从本质上讲,归责是一种法律所确认的价值判断标准,但仅有价值判断是不够的,具体的个案还要求将单纯的价值判断转化为法律技术,用以标定受害人权利救济和行为人行为自由的界限,因此在侵权的基本范畴内就需要更为具体可依的价值判断原则——侵权责任的归责原则。”[21]12《数据安全法》第五十二条第一款实际上是一种指引性规范;而按照《民法典》第一千一百六十五条和第一千一百六十六条,假如法律规范没有作出特别规定,对他人民事权益造成损害的都应适用过错责任原则。从我国现行法律框架来看,只有《个人信息保护法》第六十九条第一款对个人信息权益的侵权专门性规定过错推定责任。详言之,个人信息处理者在处理个人信息过程中侵害他人信息权益的,如果其不能证明自己没有过错,就应推定存在过错而承担相应的民事侵权责任。之所以采取过错推定原则,主要是因为信息权利人与个人信息处理者存在信息、技术、资金等能力的不对等,其很难了解个人信息处理者在处理活动中具有何种过错,更无法提出证据证明[22]63。因此,当生成式人工智能服务提供者处理的是个人数据,其未履行数据安全保护义务而导致个人数据泄露或被他人窃取、篡改等,应适用过错推定原则。但是,如果服务提供者所处理的是非个人数据,其违反数据安全保护义务对他人民事权益造成损害的,因为没有法律规范特别规定,所以被侵权人需要依据《民法典》第一千一百六十五条第一款的规定证明服务提供者存在过错,否则便不能将侵权结果归属于服务提供者。

2.服务提供者未履行数据安全保护义务的行政归责

强调公法的谦抑性适用对于保护人权、防止公权滥用以及推进中国法治事业建设具有重要价值。《数据安全法》第四十五条和第五十二条共同规定了未履行数据安全保护义务的行政责任。有学者认为,数据安全保护义务是一项程序性义务,只要行为人未履行数据安全保护义务便违反了行政法律规范,不论行为是否造成危害后果,其都应承担行政法律责任[23]47。按照这种必罚主义的逻辑,只要生成式人工智能的服务提供者未履行数据安全保护义务就应接受行政处罚。然而,对于危害性阙如的行政违法行为施予行政处罚,或者对轻微行政违法行为予以重罚,势必会引发社会公众对法的正当性质疑。《行政处罚法》第三十三条规定“违法行为轻微并及时改正,没有造成危害后果”和“当事人有证据足以证明没有主观过错”两种不予行政处罚的情形,这表明即使形式上该当于行政法律规范规定的构成要件行为,只要具备这两种情形之一就能免于行政处罚。一方面,应予处罚的行政违法行为都是具有危害性的行为。只要行为违反行政管理秩序,符合行政处罚法律规范规定的各种客观要素,都属于行政违法行为。但形式上违反行政管理秩序只是违法行为受行政处罚的前置性条件,只要“一个人的行为不具有危害性,那么他的行为就应该是自由的”[24]227。基于此,缺乏危害性的行政违法行为,不得予以行政处罚。对于行政违法行为“危害性”的判断标准《行政处罚法》采取了结果主义的立场,即只有造成危害结果的行政违法行为才具有应罚性。“危害后果”包括“可能的危害后果”与“实际的危害后果”,通常情况下应罚行为的危害后果是指可能的危害后果,特殊情况才将实际的危害后果作为必备要件[25]25。另一方面,应予处罚的行政违法行为都是有过错的行为。“凡是出于我的故意的事情,都可归责于我”[26]136,即使行为人实施的形式上该当于行政处罚法律规范规定的构成要件行为造成了严重的危害后果,但如果其在责任层面欠缺非难可能性,同样不能对其施予行政处罚。故而行政机关只能对具备责任能力且在主观上存在过错的行为人所实施的行政违法行为追究行政责任。此外,《行政处罚法》第三十三条还规定对“可以型”不予行政处罚的行政违法行为,即行为人初次违法且危害后果轻微并及时改正的,行政机关可以不追究其行政责任。“可以不予行政处罚”意味着行政机关“能不罚就不罚”,而不是授予行政机关便宜行事的处罚裁量权。综上,如果服务提供者未履行行政法律法规规定的数据安全保护义务,但其行为明显缺乏实质危害性,或者主观上没有过错,不得施加行政处罚。

3.服务提供者未履行数据安全保护义务的刑事归责

根据刑法学界的通说,具体结果应归责于作出决定或负有监督义务的人[27]79。不作为犯具有违反积极义务的特质,在对不作为犯的作为义务进行实质判断时,只有当行为人对于危害结果的发生处于保证人地位才可能成立不作为犯罪。换言之,如果服务提供者对于生成式人工智能数据安全事件的发生处于保证人地位,就负有阻止结果发生的作为义务,未履行这种义务而导致法益侵害结果发生的则应承担刑事责任。德国学者纳格勒首次提出保证人理论,即某种法益处于危险状态,负有防止该法益侵害结果发生的特别义务的保证人。德国学者阿明·考夫曼继受了纳格勒的保证人理论并经过完善提出了功能的二分说。功能的二分说依据社会功能的不同类型将保证人义务划分为对特定法益的保护义务与对特定危险源的监督义务,前者是为了避免特定法益不受来自危险源的侵害,后者则是保证特定危险源不侵害他人[28]835。奥拓和他的学生布拉姆森试图将保证人位置建立在“社会团结内部的相互期望之上”,即保证人地位就是行为人在某种特定场域被社会期待实施特定作为行为的社会角色,因而不作为犯的处罚基础在于不为刑法规范期待应为的特定行为,或不着手实行被期待的特定行为[29]537。在高桥则夫看来,功能的二分说所划分的法益保护义务与危险源管理义务,归根结底都是被社会性期待具有某一社会角色的行为人直接或间接保护该法益[30]140。为了找寻不作为犯的处罚基础,许乃曼采取的是一种与作为犯类比的方式,即处罚不作为犯的理论基础在于,不作为犯对于法益的侵害类似于作为犯基于犯罪支配所拥有的地位(结果的原因支配说)。如果人们认为在积极作为之中犯罪支配是正犯构成要件实现的核心标准,则在与作为同等的不真正不作为中也应当要求一个支配地位,所以许乃曼从“对结果基础的支配”中推导出保证人义务。存在“对结果基础的支配”这样一种支配关系的,不仅仅有支配了危险来源的监督型保证人,也有将被害人的无助作为结果基础予以支配的保护型保证人[31]681-682。笔者赞同结果的原因支配说,即只要服务提供者支配了有可能导致结果的危险的原因,就能肯定其保证人地位,从而肯定其刑事作为义务。

依照结果的原因支配说的理论逻辑,只有当服务提供者未履行数据安全保护义务的行为形成了对导致数据安全法益侵害危险的原因的控制支配,才能肯定其保证人地位,从而让其承担刑事责任。服务提供者是生成式人工智能语料库数据来源筛选与控制的主体,也是生成式人工智能算法设计或部署的主体。基于服务提供者在生成式人工智能应用中所扮演的角色地位,其对于生成式人工智能可能存在的数据安全风险有能力进行事前的评估、监测、预警与在发生数据安全事件后及时进行补救和处置,事实上形成了对生成式人工智能语料库的数据这一特定脆弱法益侵害危险的原因的控制支配,这是生成式人工智能服务提供者保证人义务的实现基础。服务提供者在自己的管辖领域(生成式人工智能本身)有责任防止他人侵害数据安全法益,而生成式人工智能数据安全的保护也强烈依赖于服务提供者实施特定的行为。因此,服务提供者应积极履行相应的数据安全保护义务,从而消除生成式人工智能存在的数据安全风险。当其未履行数据安全保护义务并造成严重危害结果的,可能构成不作为犯罪。但是,倘若服务提供者切实履行数据安全保护义务仍不能回避危害结果,就不宜承担该当于构成要件结果的不作为刑事责任。

五、结语

生成式人工智能的数据安全保护是人工智能时代法律治理需要重点关注的新兴问题。生成式人工智能的深度运用与数据安全保护产生了博弈,法律的介入要尽可能周全而不能盲目过度,即在不破坏生成式人工智能产业生态的情况下实现对数据安全的严密保护。探究生成式人工智能发生数据安全事件的根源,往往是因为服务提供者怠于履行数据安全保护职责所致。基于从源头预防数据安全风险的治理逻辑,明确生成式人工智能服务提供者的数据安全保护义务及其法律责任,对于防范生成式人工智能的数据安全风险意义重大。《暂行办法》确立的“以服务提供者义务为中心”的生成式人工智能数据安全治理模式具有实质合理性,为服务提供者承担数据安全保护义务提供了规范依据支持。通过对《数据安全法》《个人信息保护法》《网络安全法》有关规定的详细梳理,可以确定生成式人工智能服务提供者需要履行的数据安全保护义务的基本事项,包括技术安全保障和数据风险管理的事前防范义务、发生数据安全事件后立即采取处置措施并及时告知报告的事后处置义务。在对服务提供者未履行数据安全保护义务的法律责任予以分别性界定的基础上,应注重不同法律责任之间的体系衔接与功能协同,避免服务提供者法律责任的片段化。对未履行数据安全保护义务的服务提供者采取结果主义的违法责任模式,既有助于激励生成式人工智能产业的创新发展,也可以防止陷入“不实施行为即违法”的无边界法律之困境。在未来,如何构建更加符合生成式人工智能产业链特性的法律归责模式,仍需持续不断地探索。