算法歧视对宪法平等原则的挑战与应对

2022-03-18 07:54许晓慧

哈尔滨学院学报 2022年4期

许晓慧

(扬州大学法学院，江苏扬州 225000)

在算法系统中，每个个体都被转化为可计算的数据，个体的数据是微不足道的；而在宪法面前，每个个体的权利保护又都是不可忽略的。算法歧视性后果的发生，提醒人们有必要认真审视算法对宪法中平等价值的冲击。[1]2014年，白宫发布了一份题为《大数据：抓住机遇，保护价值》的报告。该报告认为，受数据来源的特定性和算法设计者主观意图的影响，[2]算法运行本身以及算法所依赖的基础内容并不能做到公平公正。这些偏见由于是在算法一开始时就已经注定，并且在不公开的情况下是难以发现其特征的，因此被该算法歧视的人往往不知道自己其实已被歧视，也便不认为该算法有什么问题。但其带来的伤害是巨大的，因此有必要进行深入研究。

一、偏见代理的算法歧视对宪法平等原则的挑战

偏见代理的算法歧视(又称“关联歧视”)，[2]正是利用了个人识别数据扩展的因素，通过相关性，利用各类特征之间的潜在关联，最终达到了歧视的目的或者意外的使歧视性后果发生。在大部分情况下，这类歧视中歧视性后果的产生并不是因为算法决策者使用了歧视性的运算逻辑，反而是利用算法逻辑的漏洞，将客观中立的数据组合产生歧视性后果。能够导致关联歧视的往往有两种情形：一是关联的数据本身不真实；二是关联的内在逻辑不自洽，其中又分为选择的关联词为非必要关联词，以及该关联词与筛选出的数据之间不存在必然性两种情况。

算法决策和预测具有一定的合理性是基于判断的基础数据是客观中立的。但现实中存在一定“张冠李戴”的现象，也即行为与主体之间不对应，如身份信息被盗用形成的贷款逾期记录。[3]在此基础上进行算法的运算其实是一种不公正。对于数据不真实导致的算法歧视问题，解决关键在于对数据进行严格的审查。对于数量庞大的大数据而言，相应的审查工作应当由使用算法进行筛选的人承担，因为他们知道所使用数据是否真实，更容易发现错误，同时也不会将败诉的风险加在被筛选的人身上。该种情况下最大的弊端就是，如果某些当事人因维权成本高昂却带来收益较小的原因而放弃主张，那么算法决策者尽管知道违法也可能会去冒险。因为他们会赌少有人去维权或者就算会有小部分人维权，也可以利用大部分人的损失来填补。《个人信息保护法》第八条虽然规定了审查主体应当保障信息安全，但没有规定是单一指利用算法进行信息处理，还是既包括该情形又包括将信息进行转移时(如信息收集方将信息处理外包给第三方公司)，此时信息保障是双方都有责任还是只有一方有责任。个人认为，此处可以理解为既包括将信息以传输的方式转移给他人，也包括真正意义上的信息处理者。信息处理者应当对接收到的信息进行处理时负责。对信息所有者而言，二者应当承担连带责任。

偏见代理算法歧视出现的另一个原因是不同目标变量之间的关联关系，可能是有一定逻辑判断的因果关系，也可能是毫无逻辑的碰巧。但是算法对此并不解释和区分，只要算法认为关联性足够强，双方之间有一定的共通关系，哪怕这个关系对于筛选来说是毫无意义，但仍会用来对分析对象进行分类和预测。[3]在筛选时输入的并不一定是特意带有歧视性的关键词，而是一般的关键词，只是该关键词可能会引起其他关联性因素，从而致使出现算法歧视。算法决策者之所以会产生这种歧视，其原因主要在于他们的“冗余编码”。[2]这种关联性的筛选会使一些心怀不轨的人利用该原理，通过数据画像技术从行为数据中识别出分析对象的某些类型特征，从而做出对其不利的评价，也即为了获得该结果而反向推导出特征，再利用该特征进行筛选，从而规避掉法律明文禁止的种族、民族、性别等歧视。[3]对于该种歧视，最直接的解决办法就是公开算法运作的内容。但需注意的是，公开并不意味着不加区分的公开，因为算法决策的内容往往与特定的某个人或某类人有关。即使是完全公正的算法决策的公开，在未作出正确定论之前也会使无辜的某个人或某类人处于舆论的中心，受到伤害。因此，一般而言只需对涉及的相关人进行公开，特别严重时也需要在公开时注意保护被算法决策相关人的个人信息。

在偏见代理的算法歧视中，算法决策人在大部分情况下主观上并没有歧视的目的，歧视的产生是因为技术与数据审核上的一些问题。因而算法决策若只是适用于社会经济权利，其手段与目的上具有合理性，属于合理差别的范围；但若运用于如量刑或者与公民各项基本权利相关的情况时，则应当谨慎地适用，除非能有百分百把握可以避免产生偏见代理的算法歧视。如果无法排除算法决策人是否具有主观歧视的因素时，此时偏见代理的算法歧视与下文特征选择的算法歧视实际上只是明示歧视与隐性歧视的区别。

二、特征选择的算法歧视对宪法平等原则的挑战

算法决策主要是对大数据进行的分析，而分析标准的选取、赋值以及分类方法实际上都是人为设定的，掺杂着人的主观选择，[4]由此便产生了特征选择的算法歧视。特征选择的歧视直接将带有歧视含义的敏感属性输入系统，是传统歧视模式在网络社会中的一种反映，[2]即相较于传统歧视模式而言只是介入了大数据、算法等因素。例如在“Google算法歧视案”中，人们搜索“非洲裔美国人”相关名称时，往往会显示更多的与犯罪相关的信息等。[2]

算法预测是通过过去来预测未来，也可以说算法预测模型表面上是面向未来的，实质上是面向过去的。[1]也因如此，特征选择的算法歧视会加重统计性歧视，因为在进行特征选择时会加重决策者对于被纳入该范围的人的调查与研究，将会获得更多的负面信息，从而加重决策者的固有偏见。例如，Google案中的算法可能会增加对非洲裔申请者犯罪背景的调查次数，因为凡利用该算法筛选的人会认为非洲裔申请者曾犯罪以及今后犯罪的可能性会比普通人高，会加大对于非洲裔申请人的了解与验证，并随着调查次数的增加，会挖掘出非洲裔人群更多的犯罪记录，同样也会减弱其他人群犯罪比率，加剧偏见的恶性循环。[2]在这种算法的作用下产生的歧视难以因为优秀的个体而改变，人们会认为这个优秀的个体是偶然存在的而不会去反思是否应当以这个特征划分群体，毕竟对于偶然的歧视来说，形成固板认识是更为严重的，因而对于一个群体而言其损害后果更加严重。[3]

特征选择的算法只有当基于被特定人考虑而做的选择时，才是符合合理差别待遇理念的，其他特征选择的算法则是明显不符合宪法所规定的平等内涵。特征选择的算法往往是最赤裸的歧视，对于该种歧视的应对方案首先是对算法本身的屏蔽，即在技术允许的情况下，应当对算法程序加一道“防火墙”，对于算法决策者的决策进行自检；其次仍然是公开，公开算法决策者的选择内容与算法决策的运算过程，算法决策者会因为惧怕公开这一行为可能带来的不利后果，而谨慎进行特征选择，放弃作出歧视行为。

三、大数据“杀熟”对宪法平等原则的挑战

大数据信息分析是人工智能发展到一定程度的产物，除了专门的研究者外，普通人几乎不了解第三方正在收集多少有关自己的信息以及何种情况下自己个人信息会被收集。[5]也正因如此，公众对于数据收集者如何运用数据进行“杀熟”更是毫不知情。中国消费者协会曾揭露了现实中部分数据拥有者对数据的不当利用，也点醒了大部分公众，使其意识到自身权益正在被侵害，需要加大保护个人信息的力度。

大数据“杀熟”中的价格歧视往往是利用新老客户、不同地区消费、客户浏览次数等条件，制造相同产品不同价格。例如，会员用户反而比普通用户价格更贵，高档手机付费更多，多次浏览页面用户的商品价格比第一次浏览用户的商品价格贵等。[2]Ezrachi和Stucke的一项研究对歧视价格的形成做过一个表述：掌握大数据的企业可以利用数据库建设辅助自主学习算法，实现优化行为、定向广告、制作个性化促销信息以及定价工作，通过机器学习和跨设备进行用户定位追踪，将“大数据”转化为“智能数据”，其所掌握的顾客个人信息数据越多，越有利于定价算法更好地预测消费者的行为和喜好，进而实现价格歧视。[6](P113-169)

特定推送是指人们在线上交易过程中往往会形成浏览、收藏、下单、评价等记录，[2]甚至有些商家利用监听的形式获取信息。互联网商家便利用这些大数据，寻找出自身用户的喜好或者寻找适合自己所推送内容的客源。例如，当我们近段时间特别关注某些问题，并通过搜索、聊天或谈话等暴露出这些关注点时，手机上的应用软件反应极其灵敏，即会弹出相关的广告，吸引你的目光。

不论是价格歧视还是特定推送，其实都是将人们进行分类，不同的人给定不同的内容。这个看似合理的行为，实际上是对平等原则的挑战。价格歧视毫无疑问，让某一特定的群体支付了原本无需如此高昂的价格，是不符合宪法规定的平等内容的，其主要问题是违反了同品同价、同质同价的市场交易一般规则。[7]在“米龙与云南世博集团有限公司、昆明世博园股份有限公司消费索赔纠纷案”①中，法院在承认世博园按照消费者的不同地区来源确定不同的消费价格是一种价格歧视，为不同的公民创造了不同的消费条件和机会时，也指出该价格歧视因被告的告知行为而成为合法行为。因为被告已经充分履行了告知义务，并没有侵犯消费者自主选择是否进行消费的权利。而原告在已知该票价存在差异的情况下仍然购票的行为，足以表明其自愿接受差别票价的待遇。[8]那么这个案件是否能够为算法价格歧视做开脱理由呢？其实并不能如此。该案中有一个非常重要的区别点：被告声称充分履行了告知义务，其实际上并没有剥夺原告自主选择权，票价区分是为了促进本地游客的消费，是合理差别对待的范围。但是算法价格歧视是隐性的，价高的购买者并不知道还有价低的购买者的存在。在这类购买者眼中认为该商品就是这个价格，实际上剥夺了其知情权与选择权，并不是一种合理的差别对待，不符合宪法规定的平等内容。同样，虽然特定推送实际上是基于人们的搜索、聊天等自身行为而进行的推送，但是无法排除算法决策者利用一些关联来掩盖自身的歧视。因此，如果特定推送只是提供定制化服务，那么应当设置提示让消费者知晓，这种特定推送才是正常的技术手段，并没有挑战平等原则。

想要控制价格歧视和特定推送，首先要控制大数据的收集。对于大数据的收集来说，最严峻的问题就是被收集者根本不知道自己的信息被收集，并且大多数人还存在一种消极态度，即对于信息的保护并不在意或有部分人认为自己的信息已经泄露，无需再费力去保护。这些因素的累加，给大数据的收集提供了极大便利。因此，一是要提高公众对于自己个人信息保护的意识，通过宣传个人信息保护的重要性让公众能够认真对待个人信息，防止个人信息从自己处泄露，减少他人收集信息的渠道。二是要控制信息收集者对信息的收集，例如有些超市在设置存储柜时，使消费者不得不允许其收集人脸信息，这具有一定强制性但并不具有必需性，应当加以控制，减少个人信息丢失的途径。三是构建合理机制与完善相关法律规定。例如《在线旅游经营服务管理暂行规定》第十五条规定了在线旅游经营者不得滥用大数据分析等技术手段，侵犯旅游者合法权益；《个人信息保护法》第十三条到第十八条规定了信息处理者处理信息的核心内容是要征求信息所有者的“同意”。其次是控制大数据的传播。《个人信息保护法》中对信息转移做了明确规定，因合并、分立而需要数据转移的，需要告知信息所有者，并说明使用该数据的目的以及处理方式是否变化；如果数据转移牵涉到交易平台的，应要求交易平台进行基础审核。最后是控制大数据的拥有者。对于不带有强制性的信息数据，可以由私人进行保管；但对于一些带有强制性的、必须透露个人信息的数据，应当由国家进行保管，而不是简单交由某个私人企业。

四、结语

算法的发展对人类有着极大的进步作用，但也不能急功近利，在发展的同时要不断关注其带来的问题，不能让有利的发展反而侵犯了最基本的权利。偏见代理、特征选择和大数据“杀熟”等三种基本形态的算法歧视不断涌现，并不断挑战宪法中的平等原则。算法歧视是真实存在的，并且具有极强的隐蔽性，要通过明晰判断标准，时刻注意算法歧视到底是在合理差别对待范围内，还是已经挑战平等的内容。一是要判断决策者的主观意愿，是否存在歧视的主观故意；二是防止有人利用算法的缺陷，通过一些其他方式掩盖歧视的存在。因此，如果有侵害权利的现象出现，就必须根据算法决策的适用范围、可能影响的合法权益去判断使用该算法决策的手段与目的是否符合合理差别对待原则，以及该种歧视后果可否避免。

在算法歧视所带来的平等挑战的应对上，一是需要使被收集者知情，可以在每次收集前通过提示的形式告知，并且该收集除非是为了公共利益，否则要有可以选择是否告知信息的选项；二是数据收集时需具有合理性与必要性，是为了提高服务水平或是必须获取该信息才可运行时才能进行数据收集；三是需要加大对数据的审查，在使用该数据时需要保证数据的正确性，至少是高度可能的情形；四是不能利用大数据进行不公正或者违法的事情，数据的利用上必须合法合理；五是通过公开算法、所选用的数据库内容和选择理由，增加算法决策者的敬畏心，使被筛选者了解原因，应对“算法黑箱”问题；六是完善监管体系，对于一些影响不大或者虽有影响但相较于诉讼成本而言还可忍受的违法收集行为，要有相对应的维权途径。

注释：

①云南省昆明市中级人民法院(2007)昆民五终字第363号民事判决书。