共享视角下数据爬取行为刑法规制理念重塑与路径展开

2024-04-24 08:43侯跃伟
江苏社会科学 2024年2期
关键词:网络爬虫数据共享

内容提要 数据爬取行为在数据平台的发展中必不可少。刑法的过多介入导致数据垄断,阻碍了市场竞争,需要对过罪化的趋势加以纠正。在数据共享的视角下,数据不同于个人信息,控制者对其没有决定权,不能仅因为Robots协议或反爬虫措施就认定获取行为的非法性;亦不能无视数据爬取行为的特性,沿袭司法解释的规定使罪量限制形同无物,对此类行为的规制应由降维转向升维。数据爬取行为促进数据共享,符合社会公共利益。应以以下两点认定相关犯罪:利用刑法加以保护的数据必须具有保护价值,其所蕴含的利益必须受到爬取行为的侵犯进而导致法益的实质减损;坚守形式与实质的双重侧面,只有数据爬取行为同时符合形式判断和实质判断的要求才能成立犯罪。

关键词 数据爬取 数据共享 数据垄断 数据法益 网络爬虫

侯跃伟,中国政法大学刑事司法学院博士研究生

本文为北京市法学会青年课题“生成式人工智能的法律风险与防范体系研究”(BLS〔2023〕C002)的阶段性成果。

数据被誉为新时代的“石油”和“黄金”。在网络服务行业中谁掌握了数据谁就掌握了权力,谁控制了数据谁就控制了人。想要大幅度提升数据获取效率,就必须找寻一种高效的、可以一定程度上替代人力进行数据采集的技术,数据爬取行为因此应运而生[1]。数据爬取,是指按照一定的规则,利用编辑好的程序或者脚本自动抓取互联网信息的行为[2]。它的工作原理可以简单概括为:在互联网海量信息中进行自动化浏览,寻找到目标信息后予以采集并进行存储[3]。如果将互联网比作一张超级大网,将网页比作节点,那么数据爬取行为就好似蜘蛛在蛛网上爬行,这只蜘蛛可以顺着节点之间的连线获取所有节点的信息。概言之,“爬蟲就是获取网页并提取和保存信息的自动化程序”[4]。数据爬取技术具有超高的运行效率,已为我国各大网络服务提供者所采用。后者凭借数据爬取技术,将爬取到的海量数据运用于自身的产品与服务之中,活跃了数据市场,推动了我国数字经济的发展。然而诞生之初处于中立的数据爬取技术如今却被严重污名化,“爬虫”被戏称为“害虫”[1],甚至动辄被刑事手段予以规制,这显然不利于数据共享的实现。

数据共享理念认为,数据来源于公民个人而不是控制数据的企业,正如黄金源自矿厂,经由工人的开采提炼而成。数据不是由互联网企业的计算机制造出来的,而是从个人身上采集来的,而制订爬虫协议且禁止其他主体进行数据抓取的公司往往是数据控制方[2]。有学者提出:“这样的公司占用了我们的信息性劳动。他们吸收了智力和社会产出,吸收了我们的艺术和学术工作,并榨干我们……的数字剩余。它们将我们制造的东西转化为它们可以拥有的东西,并像小麦一样将其储存在粮仓中。”[3]数据共享旨在促进数据在不同主体间的流动,不把数据当作控制者的私产而是将其作为公共产品。因此,数据的提供、获取不能仅由控制者根据个人意愿决断,还必须衡量垄断行为对数据共享造成的障碍。数据优势经营者通过任意选择或者拒绝数据共享对象,变相进行歧视性交易或者拒绝交易[4],同时其还借助非法获取计算机信息系统数据罪、侵犯公民个人信息罪等实现数据垄断,这些都是数据共享理念所坚决反对的。数据共享理念认为,数据的价值因流动而提升,因此公开数据的获取具有社会相当性,应谨慎认定爬取行为的违法性。数据不是物,不应过分强调其权属,且刑法对其的保护模式也应有所限缩。在他人获取数据后,数据控制者的利益并不会像物所有人丧失对物的占有一般遭受直接、完全的损害,数据流转也仅是表征形式违法性,还需要对法益侵害进行实质认定。

虽然“技术进步使人们对行为方式的社会伦理评价显得不那么确定了”[5],甚至“恰恰是在新兴科技的领域,立法者倾向于选择相对严厉的刑法作为维持社会秩序的方式”[6],但长久以来人们信奉刑法不是管理社会的前置法,而是所有规范的最后保障法,以刑罚恫吓数据爬取的做法不仅损害刑法本身的谦抑性,更促成寡头企业的数据垄断。如何实现对数据爬取行为的合理规制,成为刑法理论亟待回应的问题。

一、数据爬取行为刑法规制的过度化

自首例通过数据爬取技术入侵计算机信息系统的“上海晟品公司案”后,与爬取行为相关的刑事案件逐渐增多,刑法几乎介入数据爬取的全流程,数据爬取行为在司法实践中呈过度入罪化的趋势。

1.数据爬取行为的实践发展

我国法院对数据爬取行为的态度,经历了由肯定到逐渐否定的演变过程。在百度在线网络技术(北京)有限公司与北京奇虎科技有限公司不正当竞争纠纷案中,法院认为Robots协议不能毫无理由地禁止任何数据抓取,百度在线利用Robots协议限制360搜索引擎对其相关网页爬取的做法,与协议的初衷背道而驰。若任由这种行为发展,可能导致同行业经营者的效仿,使原本遵循互联、互通、共享、开放精神的互联网变成信息相互隔绝且无法自由流动的信息“孤岛”,这会阻碍互联网功能的正常发挥,破坏互联网行业的竞争秩序,从而有损社会公共利益[1]。在认定数据爬取行为是否属于不正当竞争的过程中,法院强调数据的公共性特征,提出对数据控制的保护要综合考量市场效率、社会利益、行业竞争秩序的影响[2]。但是,越来越多的法院机械地支持Robots协议对数据爬取行为的禁止效力,甚至不少学者直接以Robots协议认定侵犯公民个人信息罪中“非法获取”的“非法”。他们认为该协议被各个国家的互联网参与者所遵守,是普遍的商业伦理和行业习惯,而违背Robots协议进行爬取的行为就属于非法获取,具有形式违法性[3]。

部分司法工作人员主张,Robots协议代表被害人的授权意志,可以通过查明Robots协议的内容证明爬取行为是否在授权的范围内[4]。部分法院则要求被爬网站采取反爬虫措施,以证明数据爬取行为对其网站系统运营的影响。例如,在小熊美家公司诉江苏斑马公司不正当竞争纠纷案中,法院判决“未有证据显示小熊美家公司采取了反爬虫机制等技术措施,或江苏斑马公司采取了绕开或破坏小熊美家公司技术保护措施的方式抓取文章,故难以认定江苏斑马公司的行为破坏或妨碍了小熊美家公司熊猫系统的正常运行。江苏斑马公司并未使用其所抓取的文章,亦未利用该文章攫取用户关注及流量,也未因此破坏小熊美家公司的文章展示规则,故难以认定江苏斑马公司存在食人而肥、不劳而获等攫取小熊美家公司竞争优势、为自身获取竞争利益的行为”[5]。同时也有部分法院认为,行为人在未承担影视节目经营成本的前提下,擅自使用数据爬取技术抓取被害人的视频资源并设置链接的行为属于不正当的竞争行为[6]。例如,在深圳谷米公司诉武汉元光公司不正当竞争纠纷案中,法院认为元光公司利用数据爬取技术大量获取并且无偿使用谷米公司“酷米客”软件的实时公交信息数据的行为,扰乱了公平的市场竞争秩序,构成不正当竞争[7]。

2.数据爬取行为的过度入罪

数据爬取行为在刑事司法实践中呈现鲜明的扩张态势,越来越多的数据爬取行为被认定具备刑事违法性并被作为犯罪来处理。

一方面,深度链接服务被认为可能涉及侵犯著作权罪。深度链接指的是一种直接链接到第三方网站所存储的特定文件的链接方式[8]。用户在点击该网站的链接后,可以在不脱离设链网站的情况下,浏览或者下载第三方网站所存储的内容。就数据共享的意义而言,该作品借助数据爬取技术获得了更广泛的传播,理应得到司法上的允许,但司法实践却将这种爬取行为解释为“发行”[9],使这种常见的数据爬取行为成为犯罪。另一方面,具有合法权限的行为人使用数据爬取工具时可能被认定为非法获取。最为典型的例子是单位内部工作人员利用爬取技术批量下载员工数据,被认为可能涉及非法获取计算机信息系统数据罪。行为人本身具有获取信息的权限,只不过使用数据爬取工具提高搜索效率,本来合法的行为由于数据爬取工具的介入而有可能成立犯罪,表明了司法机关对数据爬取行为的扼杀姿态[10]。

除了实务界出现入罪扩张化,理论界还通过适用其他罪名以实现对数据爬取行为的全面规制。笔者在北大法宝、裁判文书网中分别以“爬虫”“爬取”“抓取”“spider”为关键词进行全文搜索,过滤掉无效案件后共获得有效刑事案例119个。分析上述刑事案件可知,数据爬取行为主要涉及侵犯公民个人信息罪(44个)、非法获取计算机信息系统数据罪(22个)和侵犯著作权罪(13个),行为人多因获取数据而被认定为犯罪。对此,有学者认为现有罪名难以满足实践要求,那些已经入罪的案件,其刑法评价不充分,将数据爬取行为的法益侵害限定为个人信息自决权或者计算机信息网络安全过于狭隘,没有实现法益侵害的完全评价。在该学者的设想中,数据爬取行为导致被害人的计算机信息系统不能运行,实际破坏的是生产经营活动,应当以破坏生产经营罪论处[1]。在笔者统计的案例中,并未发现以破坏生产经营罪处罚数据爬取行为的案例,但这或许是对这一不断被扩容以至于形成“口袋罪”的古老罪名的尊重。事实上,上述案例涉及的罪名并非完全专属于数据爬取行为,还包括诈骗罪、传播淫秽物品牟利罪、盗窃罪、开设赌场罪、宣扬恐怖主义罪、非法经营罪以及组织、领导传销活动罪等,上述罪名只不过是传统犯罪在网络空间中的体现而已。数据爬取行为的独特风险主要有以下几点:一是单纯地破坏或者避开享有著作权或者相关权利的主体为保护其权利而设置的技术措施,是否属于侵犯著作权的行为,即《中华人民共和国刑法》第217条侵犯著作权罪第6项应该如何适用于数据爬取行为;二是尽管违背了权利主体的Robots协议和有关的授权使用范围,或者突破了反爬虫措施,是否就表明侵入行为具有违法性,对数据的保护能否与保护个人信息相提并论;三是当爬取的仅是个人信息时,是否因为没有再次获得权利主体的授权而属于非法获取,即能否认为刑法中个人信息保护的知情同意原则需要重复、多次授权。

3.数据共享在出罪中被忽视

数据共享的巨大便利被风险社会的夸大表述所掩盖。当前,世界各国都朝着积极刑法前进,除罪化或者刑法的谦抑性仅仅停留在古典主义刑法的美好想象中。我们活在媒体的统治之下,世界并非由我们亲眼所见,而是通过媒体的想象建构,而“媒体也在传递犯罪无处不在的观念”[2]。民众对危险的恐慌、紧张心理也被媒体所利用。媒体中出现大量对数据爬取行为不劳而获、掠夺资源、增加成本、窃取信息的描述,使网络爬虫“成为网络世界人人喊打的‘害虫”[3]。但数据爬取行为带来的实践便利却被忽视,促进数据流动、信息共享的数据爬取行为和网络犯罪之间的界限被模糊。

数据共享在数据爬取行为的出罪研究中未受到足够重视。除了来自媒体的对爬虫的污名化,数据爬取行为出罪的困境还在于理论研究视野的局限性:理论界关注的是个别罪名而非数据爬取行为的整体刑事风险,以及爬取数据的一方因获得数据而具有的可谴责性,而未关注被爬取数据的一方利用协议、技术、法律形成的数据垄断。尽管也有学者从侵犯公民个人信息罪出发,论述数据爬取行为的法律属性,但无论是论述还是讨论被爬取的信息是否为具有可识别性的个人信息、爬取方式是否在权限之内[4],这些都是传统侵犯公民个人信息罪的内容,如果不在传统犯罪成立条件之外增加新的认定要素,试图限制数据爬取行为入罪的理想就不可能实现。此种思路之所以会失败,原因在于数据爬取行为本就是信息搜集复制的行为,使用爬取技术访问特定网站获取信息和人工手动获取信息之间并不存在本质的区别。关键的差异在于,爬虫搜集数据的速度更快、获取数据的数量更多,并且在批量抓取的过程之中无法向个人信息的权利人发出同意与否的申请。因此,有必要重新思考个人信息中的“知情同意规则”是否需要每次都进行授权,或者说对特定机构的授权是否能够具有允许其他相同或者相类似机构利用的效力[1]。更为直接的表达是,刑法有无必要对个人信息的保护达到个别授权的程度,尽管明知多数场合下个人信息收集者不愿被爬取不是担心个人信息的泄露,而是出于垄断的需要,对这种对抗数据共享的垄断有无在刑法上予以保护的必要性应当予以慎重考量。

二、共享视角下数据爬取行为刑法规制的理念重塑

面对数据共享在司法实践中被忽视的问题,2022年12月19日,中央全面深化改革委员会第二十六次会议审议通过的《中共中央国務院关于构建数据基础制度更好发挥数据要素作用的意见》提出“坚持共享共用,释放价值红利。合理降低市场主体获取数据的门槛,增强数据要素共享性、普惠性,激励创新创业创造,强化反垄断和反不正当竞争,形成依法规范、共同参与、各取所需、共享红利的发展模式”[2]。因此,有必要基于数据共享的视角对数据爬取行为的刑法规制理念予以重塑。

1.共享视角下刑法对数据保护的位阶应弱于财物

当前,对数据爬取行为的打击呈现打击早期化、法益抽象化的特点[3],还出现了数据保护财物化(即绝对化)的错误倾向。

一方面,就刑法规范而言,数据在刑法体系中的价值劣于财物。有形财产的法价值位阶高于无形财产,这就意味着对数据的保护应当至多等同于有形财产,“任何刑法典所禁止的行为都可以按照距离刑法要预防的最终危害的远近进行层级排序”[4]。在刑法的价值体系中,存在优先保护和劣后保护的顺位,利益越重要保护时点就越早。以知识产权为例,第一,刑法对所有的有形财产都予以保护,无论其是否属于合法财产,例如个人非法持有的枪支、弹药、毒品,都是侵犯财产犯罪的保护对象;但是对于非法无形财产则不予刑事保护,如“淫秽作品”等。第二,刑法禁止各种侵犯有形财产的行为,无论转移占有、毁坏效用还是妨害返还(掩饰隐瞒犯罪所得、犯罪所得收益罪)都作为犯罪处罚。但实际上,对永久删除他人作品这样严重侵犯知识产权的行为,刑法亦不过问。第三,刑法对有形财产的入罪额度要求较低,盗窃、诈骗等传统财产犯罪的入罪金额不过数千,而侵犯著作权罪的成立则要求行为人非法获利达到数万。这种对比实体财产在保护位阶上更低的知识产权等数据利益给予更加优先保护的做法,并不符合法律规范的价值构造。

另一方面,从规范保护目的而言,财物的保护目的完全在于所有权人独享激励生产,但是数据的一大作用在于通过共享实现信息流通。限制个人财产以促进公共利益必须满足严格的要求,因为财产的本质在于独享而不在于共享。有人认为,数据爬取行为并未增加数据量,反而消耗了能源,仅仅是数据从一个网站转移到其他网站,没有产生实质性贡献。但是,相同的数据在不同的环境下能够产生不同的作用,随着数据量的增加,固定的单一数据也会变得更有价值,而且并非所有人都使用同一信息获取渠道,例如,在微博中可以获得微信公众号的热点文章,在百度中也可以获得腾讯视频的影视作品。以目前热议的生成式人工智能为例,当前公开的模型数据量最高已达1.085万亿个参数[5],且生成式人工智能的数据并非凭空产生,而是通过不断地使用网络爬虫爬取公共数据获得的[1]。一旦禁止数据爬取行为,控制大量数据的经营者将通过数据控制手段来限制其他企业的创新,再通过自己的数据优势挤占新兴企业的市场份额[2]。目前,各种网站或企业设置爬虫协议拒绝数据爬取的动机不在于对自身网站信息的合理安排,而是利益博弈,他们关注的是自身竞争利益的损失和访问流量的流失,消费者成为考量爬取行为允许与否中的“弃婴”。严格的爬虫协议如果得到刑事司法的承认,数据保护将会异化为数据政策中的“闭关锁国”,消费者个人筛选、获取信息的难度也将急剧增加[3]。

2.共享视角下对数据保护的罪量要求应适当提升

爬虫爬取数据的速度和数量是惊人的,有已决案件中爬取数据的速度达每秒183次,所有案件中获取信息的数量都以万为单位,最少的将近1万条,甚至有获取量超过2亿条的案件[4]。随着数据爬取技术的飞速发展,爬取数据的速度会越来越快,获得的数据量也越来越大,因此必须因时制宜地制定罪量标准。反观我国刑法中关于规制数据爬取行为的罪名,其成立条件往往只需要满足极低的罪量要求[5],这导致数据爬取行为基本上成为只需定性而无需定量的犯罪行为。

现实情况是,过低的犯罪门槛也并未被司法实践完全接受,对罪量的过低要求没有带来司法实践的盲目服从,反而可能导致司法工作人员的集体抵制。根据最高人民法院、最高人民检察院发布的《关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条之规定,即便非法获取的是最普通的公民个人信息,只要达到50000条以上的,法定刑原则上都在三年以上七年以下有期徒刑的区间。但在侵犯公民个人信息罪的司法案件中,法院并未遵从上述司法解释,而是一致地降低了量刑标准[6]。即便存在部分案件涉及上亿条个人信息拉高平均数量的现象,但个案中法院违反司法解释进行轻判的现象也印证了样本统计结论的真实性。例如,李某使用爬虫获取80万条个人信息,只被判处1年半有期徒刑;周某获取个人信息超过4万条只被判处罚金3万元;等等[7]。司法不是机械的而是能动的,任何司法工作人员都具有自我的价值判断,当法律规范过于偏离其个人价值标准时,表面合法实质规避的变相抵抗,就属于司法审判人员正义直观的司法映射。对于翻阅司法解释的当事人而言,“侥幸”获得的从宽处罚将导致其对法律规范的蔑视;对普通民众而言,“有法不依”也将降低法律规范的权威。

“没有了来自机构体系底层和顶层的同步支持,包括一线人员和州一级的官员,任何改革的努力注定都要走向失败。”[8]刑法条文或司法解释不会因为其被制定于冰冷的书面或者在政府系统之中公开便获得生命力,数据爬取行为的规制现状便生动体现了法官对于过低犯罪门槛和过高处罚手段的抵制;对于大规模获取信息的数据爬取行为而言,罪量几乎失去了限制犯罪成立的作用,使此类行为具有了先天的入罪基因[1]。而违法所得和经济损失的过低要求在当代社会中极易达到,数据爬取行为的出罪只能依赖于行为的违法性认定,而非罪量认定[2]。因此,除了呼吁司法解释提高罪量设置,还应通过数据共享排除数据爬取行为的刑事违法性。

三、数据共享视角下数据爬取行为的刑法规制路径

无论如何解释,严重侵犯他人合法权益的数据爬取行为不可能全部无罪,但应合理解释数据法益的实质内涵[3],厘清刑法规制的界限,防止刑法的触角过度延伸从而妨害数据共享。

1.基于数据法益实质内涵厘清刑法规制的界限

数据属于刑法保护的对象,但是数据并非独立的法益,其法益的实质内涵来源于数据所体现的其他价值。因此,首先,利用刑法加以保护的数据必须具有保护价值,能够直接或者间接地保护其他利益;其次,数据蕴含的利益必须受到犯罪行为的侵犯进而导致法益的实质减损。

其一,数据无法作为独立的保护法益,刑法保护的数据需要内涵实在的利益。技术措施也属于数据,但其本身只有在保护著作权时才有意义,对规避、破坏没有保护著作权的技术措施的行为不应进行刑法规制。有学者认为,我国刑法应当对数据安全加以独立保护,以弥补处罚漏洞[4]。这种观点过高地评估了数据本身的价值,数据不过是传统法益的表征,是犯罪对象而不是保护法益,如同故意杀人罪的行为对象是人的身体,法益却是人的生命一般。刑法规制数据爬取行为必须阐明数据所隐含的法益内容。《中华人民共和国刑法修正案(十一)》将“通过信息网络传播”的行为列入侵犯著作权罪的罪状之中,并增设了“未经权利人许可,故意避开或者破坏技术保护措施”的犯罪类型,以实现对知识创新的鼓励。诚然,不同的权益类型具有不同的保护方式和侵害方式,对实体物的侵害也不依赖于直接对物产生影响。“合乎目的地使用利益的可能性,不是只能通过对它进行实体性改变才能遭遇减损。……如果认为对于法益的持有者而言,法益的价值减损只能以实体性改变的方式得以体现,那就可能理解得过于肤浅了。”[5]但是,形式地解释该项无异于将侵犯著作权罪由实害犯变为抽象危险犯,因为,仅仅绕开或者破坏权利人的技术措施并不一定能够获取他人作品,更不用说给权利人带来直接损失了,其反而可能促進作品的传播从而符合权利人的利益。事实上,这是将技术措施看作数据,并通过侵犯著作权罪对其加以保护。通说认为,我国侵犯著作权罪的保护法益是著作权人的著作权,与著作权有关的权利以及国家的著作权管理制度,并且著作权是作者对其作品所享有的占有、使用、收益、处分的专有权利[6]。按照这种理解,知识产权是接近于物权的绝对权、对世权,任何可能对著作权或者有关权利的行使产生妨害的行为都有法律干涉的必要。但是,这种理解忽视了知识产权作为无形财产的特性,其根本不存在事实上的占有,作者不是依赖对作品的物理掌控从而实现对权利的控制,而是通过是否允许他人使用来实现权利效果。换言之,保护著作权的技术措施如果无关著作权的许可使用制度,则不具有刑法保护的意义,相关行为便不应受到刑法规制。

其二,数据所保护的其他利益必须受到实际侵害。数据共享理念要求减少不必要的信息授权,当数据爬取行为没有超过权利主体同意的预期范围时,则视其为存在拟制的同意;在个人信息二次授权欠缺时,同样可以借助场景理论排除数据爬取行为的违法性。“法益客体不是因其存在本身而受到保护,而是为了保护法益主体所享有的对法益客体之内容进行处分、按照自己的偏好與价值观进行使用的利益。”[1]在当代社会,我们不存在不受信息规范制约的生活领域,不存在完全自由的信息领域,判断信息是否为隐私不是通过其是公开还是私下进行,而是要借助场景进行认定[2]。大数据时代,对海量数据的二次获取要求个别同意的做法并不现实,类似的场景下应推定权利主体会做出同意从而阻却行为的违法性。

同时,应当衡量爬取个人信息带来的损害与数据共享形成的便利之间的关系,当数据共享的利益大于爬取行为带来的个人信息保护的风险时,应否定爬取行为的实质违法性。个人自决权仅在首次授权时作为判断标准,不能单纯以个人自决权作为认定爬取个人信息违法性的依据。“法律且尤其是特殊的法律,是服务于特殊的社会目标的。”[3]不能因为《中华人民共和国个人信息保护法》的目的是保护公民对个人信息的自我决定权,就在刑法中予以照搬。刑法处罚的是最严重的恶行,因此即使数据爬取行为侵犯了自决权,但其促进数据共享的好处也可以减轻甚至排除其违法性[4]。事实上,过度的权利人同意已经导致权利主体陷入同意疲劳,这在未成年人的个人信息保护之中已有所显现,有些场景下监护人可以主动帮助未成年人造假以回避验证程序[5]。在使用爬取技术的企业和被爬取数据的企业属于相同或者相近行业时,个人信息因为被爬取而增加的风险微乎其微,因为该类个人信息的用途是相同的,个人信息存在的风险在用户首次承诺时就已明确。根据场景理论中最重要的信息适当性规范,相同行业之间的信息共享没有超出授权中的特定情境,公民个人不存在被期待的保密愿望;同时,也不能以数据控制企业的单方面禁止来认定爬取行为的违法性。我国司法实践倾向于肯定平台授权的积极意义,例如,在“新浪诉脉脉不正当竞争案”的判决中便确立了使用新浪微博OpenAPI获取用户信息时,必须坚守“用户授权+平台授权+用户授权”的三重授权原则[6]。此种严苛的授权制度只会带来三种结局:其一,用户在第一次授权之时就进行“一刀切”的普遍授权;其二,多次授权导致其他企业事实上不可能获得授权,从而使数据爬取行为一直处在灰色地带;其三,数据控制者获得第一次授权后笼统地制定禁止数据爬取的协议,将用户的个人信息视为私产。作为第一次个人信息授权,权利主体的自我决定是首要的考量内容,此种自决权不需要额外的正当化依据。但授权的效力范围不应局限于个别场景,而应权衡爬取行为增加的风险与数据共享的可能利益并予以拓展,对非敏感信息的二次爬取无须再次获得权利主体的同意。

2.形式判断与实质判断相结合来规避技术争议

犯罪的认定需要坚守形式与实质的双重侧面,只有同时符合形式判断和实质判断的要求才能成立犯罪。

其一,形式判断要求入罪不能突破文义解释的范围。Robots协议或者数据控制者的明确拒绝不是法律,违反也不代表着非法;且相关协议和垄断行为妨害数据共享、违背公序良俗,不能作为形式违法性的来源。数据是公共产品,是否允许他人获得相关数据不能由数据控制者独揽大权。数据寡头倾向于通过Robots协议限定特定竞争对手的数据爬取行为,仅对合作者开放相关数据,实施非典型的联合抵制交易行为。数据优势经营者通过任意选择数据共享对象或者拒绝共享对象,变相进行歧视性交易或拒绝交易[1],再借由非法获取计算机信息系统数据罪、侵犯公民个人信息罪等实现对数据的垄断。或许有人认为Robots协议是格式条款,然而格式条款同样不得违背效力性强制规范,不得违背公序良俗,为维护垄断地位而禁止他人获取数据的行为违背了公序良俗,因此无效。“人们不应当把自己的研究局限于国家的法院和法官,而应当注意考虑所有解决纷争的实际方法。”[2]在HIQ诉LinkedIn案中,法院认为不能禁止其他公司抓取可以在互联网上公开访问的数据,否则将导致数据垄断[3]。美国法院认为,未经授权或者超越授权进入计算机系统以获取信息的规定[《计算机欺诈和滥用法》(CFAA)第1030条],不是禁止任何没有获得同意的访问,当访问的信息本身不需要获得普遍性的事前授权时,便不属于CFAA禁止的行为[4]。因此,仅仅凭借Robots协议无法确定数据爬取行为的形式违法性。

其二,形式判断要求凡是具有合法依据的行为不能构成犯罪。合法的数据获取行为不符合刑法对“非法获取”的形式要求,即使其导致严重后果也无法进行刑法规制。“社会不仅是惩罚权的来源,同时是所有权利、法律及犯罪性的直接根源,法律只不过是社会将主要利益进行法典化的方式。”[5]基于数据共享理念,数据爬取行为常常具有社会相当性,是法所允许的风险,由此导致的结果不能由行为人负责。凡是公开信息,其目的在于传播而使公众知晓,应当完全否定对政府公开数据的数据爬取行为的违法性。在一起案件中,行为人开发了一款爬虫软件,能够与深圳市的居住证网站链接,可以在深圳市居住证网站上查询到房产地址、房屋编码等对应的资料。2018年5月2日,该软件在2个小时内通过深圳市居住证系统查询并储存信息1510140条。法院认为,行为人的爬取行为在该时段内造成深圳市居住证系统无法正常运作,极大地影响了该居住证系统使用方深圳市公安局人口管理处的日常工作,成立破坏计算机信息系统罪[6]。然而,我国国务院颁布的《促进大数据发展行动纲要》《政府信息公开条例》以及中央网信办、国家发展改革委、工业和信息化部于2018年联合印发的《公共信息资源开放试点工作方案》等,都要求推进政府数据公开,强调没有政府数据共享就没有透明的行政工作[7]。相关部门应该意识到,公众需要借助非政府网站查阅公开数据,说明政府平台查阅存在缺陷,和市场提供的查阅服务相比效率较低。可行的做法应是改进数据的公开途径,提高政府数据开放平台的计算能力。政府数据开放是一种公共服务,公民接受公共服务的同时却要受到刑罚制裁的威胁,这极易导致威权主义。行为人承担责任的前提是其实施了符合刑法分则构成要件的实行行为,合法行为即使导致了严重后果亦无法对其进行归责。因此,政府数据应当允许任何人获取,数据爬取不符合“非法获取”的形式要求,不能认定为犯罪。

其三,符合形式判断前提后应进行实质判断,将没有实质侵犯法益的行为予以出罪。使用“反反爬虫”等措施只符合形式判断的要求,不满足对法益侵害的实质判断,还须审查数据爬取行为是否产生了实质替代作用[1]。以侵犯著作权罪为例,使用爬虫爬取了他人的作品,虽然可能使用了“反反爬虫”措施,但这仅仅满足了形式判断,只要其并未實现对被爬取网站的实质替代,便不应当认定为侵犯著作权罪。部分判决也支持只有当搜索引擎替代第三方网站而直接向用户提供内容时,才能认为数据爬取行为已经侵犯了他人的著作权的立场[2]。事实上,爬取他人作品并链接到自己网站上的爬取行为也有部分未被认定为犯罪,而仅承担民事责任[3]。数据爬取行为侵犯著作权存在三种类型:第一种类型是相关权利主体设定了只有特定用户才能访问,例如只能付费观看,或者只能充值会员观看等。此种类型下只要突破技术链接让无权限者也能观看,即构成侵犯著作权。第二种类型是相关作品是对所有用户开放的,但是用户阅读或者观看作品时会接受其他主体的广告,权利主体以此营利。这种类型下,由于广告收入实际上相当于用户的变相付费,使用爬虫爬取作品屏蔽广告的行为也成立侵犯著作权罪。这可以解释为,被爬取数据的网站获得了著作权权利人的授权许可,代为行使其许可权利,如果被许可人无法通过广告获得利益就不会购买权利人的许可。第三种类型是相关权利主体向用户免费开放其作品,爬虫软件仅仅爬取了网页,但是并未采取广告屏蔽措施,则此种情形下数据爬取行为反而促进了被爬网站的信息传播,不能成立犯罪。在数据共享理念下,未发生替代作用的数据爬取行为不应入罪,“未经许可”的解释应借助数据共享进行限缩,被爬取网站单纯禁止爬取的意思表示不能作为违法性认定的来源。有的技术保护措施仅仅代表了对作品使用场域的限制,属于对竞争利益的保护,不等同于对著作权的保护,应通过实质判断来认定绕开、破坏技术措施的数据爬取行为的刑事责任。

四、结语

“法律要规范的并非技术原理,而是技术运用所造成的当事人间的利益分配格局。”[4]本文通过对刑事案例的分析发现,在司法实践中对数据爬取行为存在过度入罪化的倾向,刑法逐渐成为对数据爬取行为的主要规制手段。据此,本文提出限制入罪的两大路径:其一,坚持数据共享建构数据保护的刑法位阶;其二,坚持升维打击,应数据共享的要求提升相关犯罪的罪量要求[5]。数据爬取行为的规制除了要保护计算机信息系统安全以及其他主体的著作权、个人信息权,更要照顾数据共享这一公共利益并兼顾数据爬取行为的特性,当爬取行为存在较低的个人信息受侵害风险时,数据共享可以消除其违法性。“人们不应将法益想象为如同陈列柜中保管的博物馆展品一般的静止状态。”[6]从这一角度讲,曾经入罪的行为并不具有永恒的违法性,数据爬取行为的持续入罪恰恰是对社会生活缺乏观察、反思的表现。作为日常工具,数据爬取技术的刑法规制应秉持谦抑性。

〔责任编辑:玉水〕

[1]刘艳红、杨志琼:《网络爬虫的入罪标准与路径研究》,《人民检察》2020第15期。

[2]赵国生、王健:《Python网络爬虫技术与实战》,机械工业出版社2021年版,第75—83页。

[3]潘晓英、陈柳、余慧敏等:《主题爬虫技术研究综述》,《计算机应用研究》2020年第4期。

[4]崔庆才:《Python3网络爬虫开发实战》,中国工信出版社、人民邮电出版社2018年版,第93页。

[1]谢玮、宋杰:《“爬虫”怎么成了“害虫”?》,《中国经济周刊》2019年第20期;韩轶、聂晶:《加强规范,不让网络爬虫变“害虫”》,《光明日报》2021年3月20日。

[2]曹阳:《我国对违反“爬虫协议”行为的法律规制研究》,《江苏社会科学》2019年第3期。

[3]莎拉·拉姆丹:《“付费墙”:被垄断的数据》,黄尹旭、赵精武译,上海人民出版社2023年版,第7页。

[4]孙丽君、尉宇航:《数据垄断的法律规制》,《重庆邮电大学学报(社会科学版)》2023年第4期。

[5][6]埃里克·希尔根多夫:《德国刑法学:从传统到现代》,江溯、黄笑岩等译,北京大学出版社2015年版,第357页,第222页。

[1]北京市高级人民法院民事判决书(2017)京民终487号。

[2]浙江省杭州市滨江区人民法院民事判决书(2019)浙0108民初5049号。

[3][10]刘艳红:《网络爬虫行为的刑事规制研究——以侵犯公民个人信息犯罪为视角》,《政治与法律》2019年第11期。

[4]游涛、计莉卉:《使用网络爬虫获取数据行为的刑事责任认定——以“晟品公司”非法获取计算机信息系统数据罪为视角》,《法律适用》2019年第10期。

[5]北京市海淀区人民法院民事判决书(2019)京0108民初33822号。

[6]北京知识产权法院民事判决书(2016)京73民终143号;北京知识产权法院民事判决书(2017)京73民终1922号。

[7]祝建军:《利用爬虫技术盗用他人数据构成不正当竞争》,《人民法院报》2019年5月23日。

[8]张少东:《深度链接行为的刑事审视》,《山西师大学报(社会科学版)》2014年第S5期。

[9]上海市徐汇区人民检察院刑事判决书(2017)沪0104刑初325号。

[1]陈毅坚、曾宪哲:《网络爬虫刑法规制研究》,《广东社会科学》2022年第5期。

[2]劳伦斯·弗里德曼:《碰撞——法律如何影响人的行为》,邱遥堃译,中国民主法制出版社2021年版,第13页。

[3]高富平、冉高苒:《数据生产理论下爬虫技术的法律规制路径》,《江淮论坛》2022年第5期。

[4]宋行健:《滥用网络爬虫技术收集个人信息的刑法规制》,《湖南科技大学学报(社会科学版)》2021年第4期。

[1]刘艳红:《公共空间运用大规模监控的法理逻辑及限度——基于个人信息有序共享之视角》,《法学论坛》2020年第2期。

[2]《中共中央国务院印发关于构建数据基础制度更好发挥数据要素作用的意见》,2022年12月19日,https://www. gov.cn/zhengce/2022-12/19/content_5732695.htm。

[3]夏伟:《法益概念解释功能的教义学形塑》,《苏州大学学报(法学版)》2023年第2期。

[4]赫伯特·L.帕克:《刑事制裁的界限》,梁根林等译,法律出版社2023年版,第274页。

[5]徐月梅、胡玲、赵佳艺等:《大语言模型的技术应用前景与风险挑战》,《计算机应用》2023年10月16日(网络首发)。

[1]陈兵:《通用人工智能创新发展带来的风险挑战及其法治应对》,《知识产权》2023年第8期。

[2]翟巍、刘一诺:《反不正当竞争法视角下公开数据爬取行为的合法性边界》,《价格理论与实践》2021年第8期。

[3]宁立志、王德夫:《“爬虫协议”的定性及其竞争法分析》,《江西社会科学》2016年第1期。

[4]广东省深圳市南山区人民法院刑事判决书(2019)粤0305刑初193号;杭州市余杭区人民法院刑事判决书(2014)杭余刑初字第1231号;北京市第一中级人民法院刑事判决书(2021)京01刑终542号。

[5]《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》(法释〔2011〕19号)第1条对非法获取计算机信息系统数据罪的罪量要求作出了规定,即获取有关网络金融服务的身份认证信息十组以上的、其他身份认证信息五百组以上的、违法所得五千元或者造成经济损失一万元以上的可以成立犯罪。

[6]在笔者统计的44个因使用数据爬取技术而被认定为侵犯公民个人信息罪的案件中,法院判决书中列明行为人获取公民个人信息数量的有32个,涉及94位自然人,获取的个人信息数量总计约为70406万条,人均749万条信息。按照司法解释,这94名被告人人均被判处的自由刑应当在三年以上,但现实情况是统计样本的自由刑累计只有一百九十年零一个月,平均每人2.02年,明显低于预期。

[7]北京市通州区人民法院刑事判决书(2019)京0112刑初62号;浙江省温岭市人民法院刑事判决书(2018)浙1081刑初1339号。

[8]格雷格·伯曼、奥布里·福克斯:《失败启示录——刑事司法改革的美国故事》,何挺译,北京大学出版社2017年版,第124页。

[1]杨志琼:《数据时代网络爬虫的刑法规制》,《比较法研究》2020年第4期。

[2]石经海、苏桑妮:《爬取公开数据行为的刑法规制误区与匡正——从全国首例“爬虫”入刑案切入》,《北京理工大学学报(社会科学版)》2021年第4期。

[3]刘双阳:《数据法益的类型化及其刑法保护体系建构》,《中国刑事法杂志》2022年第6期。

[4]王惠敏:《网络数据安全独立性之提倡及其刑法展开》,《法治研究》2023年第3期。

[5]乌尔斯·金德霍伊泽尔:《刑法总论教科书》(第六版),蔡桂生译,北京大学出版社2015年版,第5页。

[6]杨万明:《〈刑法修正案(十一)〉条文及配套〈罪名补充规定(七)〉理解与适用》,人民法院出版社2021年版,第197页。

[1]英格博格·普珀:《德国刑法总论:以判例为鉴》(第四版),徐凌波、喻浩东译,北京大学出版社2023年版,第177页。

[2]H. Nissenbaum, "Privacy as Contextual Integrity", Washington Law Review, 2004(5), pp.119-129.

[3]詹姆斯·E.赫格特:《当代德语法哲学》,宋旭光译,中国政法大学出版社2019年版,第110页。

[4]阮晨欣:《大数据时代账号注销权的保护实践——以〈个人信息保护法〉“删除”处理为视角》,《东南法学》2021年第2期。

[5]王苑:《中国未成年人网络个人信息保护的立法进路——对“监护人或家長同意”机制的反思》,《西安交通大学学报(社会科学版)》2019年第6期。

[6]北京知识产权法院民事判决书(2016)京73民终588号。

[1]孙丽君、尉宇航:《数据垄断的法律规制》,《重庆邮电大学学报(社会科学版)》2023年第4期。

[2]茨威格特、克茨:《比较法总论》上,潘汉典等译,中国法制出版社2017年版,第8页。

[3]夏梦妍:《反垄断法视角下的反用户公开数据抓取行为——以美国hiQ诉LinkedIn案为出发点》,《中南法律评论》2021年第2期。

[4]See HIQ Labs, Inc. v. LinkedIn Corp., 938 F.3d 985(A.Cir.2019).

[5]周光权:《刑法学的向度——行为无价值论的深层追问》(第3版),中国人民大学出版社2023年年版,第165页。

[6]广东省深圳市南山区人民法院刑事判决书(2019)粤0305刑初193号。

[7]周佑勇:《中国行政基本法典的精神气质》,《政法论坛》2022年第3期。

[1]苏宇:《网络爬虫的行政法规制》,《政法论坛》2021年第6期。

[2]北京市海淀区人民法院刑事判决书(2013)海刑初字第2725号。

[3]北京知识产权法院民事判决书(2021)京73民终3475号。

[4]刘文杰:《信息网络传播行为的认定》,《法学研究》2016年第3期。

[5]刘艳红:《Web3.0时代网络犯罪的代际特征及刑法应对》,《环球法律评论》2020年第5期。

[6]乌韦·穆尔曼:《德国刑法基础课》(第7版),周子实译,北京大学出版社2023年版,第30页。

猜你喜欢
网络爬虫数据共享
炼铁厂铁量网页数据获取系统的设计与实现
科学大数据的发展态势及建议
数字化迎新系统宿舍分配模块的设计与实现
贵州大数据产业发展战略理解和实施建议
基于社会网络分析的权威网页挖掘研究
主题搜索引擎中网络爬虫的实现研究
浅析如何应对网络爬虫流量
网络爬虫针对“反爬”网站的爬取策略研究
面向海上平台机械电气设备的数据共享平台的设计与实现
基于协同办公的会议管理系统设计与实现