网约车平台算法个性化定价、乘客履约率及其监管对策

2024-03-28 15:16冯苏苇林昌
关键词:网约订单定价

冯苏苇 林昌

(1.上海财经大学 公共经济与管理学院,上海 200433;2.上海财经大学 交通经济与政策研究中心,上海 200433)

算法个性化定价是指企业利用观察、推断或自愿提供收集到的个人消费行为信息,估测出消费者的支付愿意,进而为不同的消费者设定不同的价格[1]。其所产生的市场影响引发诸多争议。支持者认为,从市场自由出发,企业应该自由选择各自的定价方法,包括有权向不同的客户提供不同的价格,除非有令人信服的理由对其进行监管,否则应该允许企业自由经营[2];个性化定价在扩大产出、促进竞争和创造动态激励等方面也使消费者受益[3]。反对者认为,平台企业利用算法制定产品或服务价格,产生价格轴辐合谋的现象,有损消费者利益[4];在信息偏在、技术劣势、监管包容等因素叠加作用下,消费者无力与互联网企业相抗衡[5]。当消费者剩余被过度剥夺时需要政府进行干预纠偏[6]。由于算法个性化定价会留下数据痕迹,反垄断部门是否要进行干预,可以利用前沿的统计分析工具对交易大数据进行研判以寻找证据。

本文从网约车乘客违约率居高不下的现象出发,探讨算法个性化定价对乘客违约率的影响机制,通过多种归纳学习算法进行数据挖掘,识别乘客是否履约的关键特征。网约车约车步骤包括:①乘客发起预约请求;②平台响应并匹配车辆,向司机派发订单;③平台向乘客反馈行程金额、行程时间等信息,由乘客对订单进行最后的确认。在此过程中,如乘客立即拒绝或事后取消预约,则整个交易过程即告失败。相比传统出租车,网约车乘客在下单过程中履(违)约率相对较低(高),过多的乘客毁约、违约行为将极大影响平台的运行效率,引发复杂的连锁反应。违约率与个性化定价不透明、要价过高及算法预测不准确等因素有关,也与乘客行程距离、平均候车时间显著负相关[7]。现有研究关注如何设计惩罚策略以提高平台收益[8],算法个性化定价与乘客履约率之间的关联性有待进一步研究。

供需匹配算法及动态定价策略是网约车平台运营的两项关键技术[9]。现有研究构建定价策略模型,探索如何通过价格调节手段实现司乘快速匹配[10-13],提高平台运营效率,节省客户等待时间,实现司乘及平台利益最大化,但较少涉及算法个性化定价所导致的价格歧视、消费行为变化乃至市场影响。传统出租车服务结束后按计价器显示的金额结算,交易过程公开透明、便于监管[14-15];而平台则以保护商业秘密为由,不主动公开定价规则[16],算法“黑箱”不利于市场监管。随着特征工程和前沿算法的推进,利用大数据挖掘平台交易规则和算法,分析算法个性化定价产生的市场影响,并对平台价格歧视与乘客履约率之间的因果关系进行建模,将使算法“黑箱”和交易规则透明化,有助于维护消费者知情权,营造诚实守信的经营环境,有利于网约车平台的可持续经营。

本文关注的问题是,当网约车平台响应乘客的预约请求,反馈行程金额、行程时间等订单信息后,乘客在何种条件下将完成交易或取消预约,以及哪些因素会影响乘客的选择,从而解释网约车乘客违约率居高不下的现象。首先建立一个网约车平台竞争模型,描述个性化定价策略对消费者决策的影响机制;其次,利用某网约车平台百万级大数据信息,采用Bhattacharyya 距离、提升决策树、改进拉斯维加斯方法等前沿算法对乘客履约率的影响因素进行实证分析。由此可找出影响乘客决定购买网约车服务的关键因素,揭示网约车平台定价、运营规则对乘客消费行为所产生的影响,使公众更清楚地了解网约车服务背后的运作规则,也为政府部门对网约车监管提供分析工具和评判参考。

1 理论模型

1929年线性Hotelling模型[17]被首次提出,用于研究产品差异化情形下各厂商的价格策略。由于直线形市场存在边界性,线性Hotelling模型的可解析性随着博弈方数量的增加而减小,且不容易存在均衡解。1979 年,Salop[18]提出环形Hotelling 博弈模型(即Salop 模型),其可以求解两个及两个以上对象之间的博弈。近年来,Salop 模型被广泛应用于双边市场竞争博弈、定价、交叉网络外部性以及用户归属问题[19-20]。相关研究发现,歧视定价对平台利润的影响取决于用户网络外部性的大小[21],随机需求和不同竞争情形下最优价格可以有效调控平台供应能力[22]。演化博弈方法亦被应用于分析网约车平台的补贴政策和服务质量如何影响乘客服务类型选择[23]。

为了探寻网约车平台个性化定价与乘客违约率之间的关联性,本节在两种服务竞争的矩形Hotelling 模型基础上,建立两个网约车平台之间的Stackelberg 博弈模型,揭示个性化定价如何影响乘客(用户)履约率及其影响因素。考虑两个网约车平台,分别为优势平台(主导者)与劣势平台(跟随者),用户(c)和司机(d)均为单属性,根据各自的效用决策使用哪个网约车平台提供的服务。完成订单后,用户支付给网约车平台的服务价格为p,无需再支付佣金,司机支付给平台的佣金率为θ,即司机每单需支付给平台θp的佣金。

1.1 基础模型

本节采用两种服务竞争的矩形Hotelling 模型(Salop 模型),且不考虑交叉外部性。用户和司机的数量归一化为1,对平台的估值分别为vc和vd,服从(0,1)区间上的均匀分布。用户和司机效用分别为和,只有当时,用户和司机才会选择网约车平台的服务,并且用户在所考虑的区域和时段行程相同。静态均衡分析时假设两个平台的价格满足p1≤p2。

假设用户和司机分布在正方形的边上(见图1),他们对平台服务存在偏好异质性并且对两个平台的偏好程度用4条边的坐标表示。比如,A(0,0)表示两个平台都不选择,B(0,1)表示选择平台2,C(1,0)表示选择平台1,D(1,1)表示两个平台都选择,AB边或AD边上分布的是对平台2 或1 的忠实用户或司机,则两个平台的竞争情景表现为正方形边上的用户和司机的密度。设两个平台的竞争强度为τ,AB边和AD边表示两个平台的忠实用户和司机的密度为1 (2 + 2τ),CD边和BC边的密度为τ(2 + 2τ)。

图1 矩形Hotelling模型Fig.1 Rectangular Hotelling model

在AD边上,用户或司机选择平台1 而不选择平台2,即满足U1=v1-p1> 0,此时效用均衡点v1=p1。在AB边上,用户或司机选择平台2而不选择平台1,即满足U2=v2-p2> 0,此时效用均衡点v2=p2。在BC边上,用户或司机必然选择平台2,如果部分人选择平台1,即满足U1=v1-p1>U2=v2-p2,不妨设v2= 1,此时效用均衡点v1= 1 +p1-p2。在CD边上,用户或司机必然选择平台1,如果部分人选择平台2,即满足U1=v1-p1 1,与v2< 1 的假设矛盾,则选择平台1。那么,选择平台1的用户数为(AD+CD)边密度与效用的乘积之和,即

1.2 扩展模型

下面考虑交叉网络外部性。乘客选择网约车平台时考虑的因素包括平台对打车需求的回应速度、备选司机数量及其服务质量等,这些与平台粘合的司机数量和素质有关;类似地,司机在选择平台时也会考虑平台乘客多寡以减少等待的时间成本。在矩形Hotelling模型中引入交叉网络外部性[24],即在交易过程中,平台每增加一个司机给用户增加的效用为αc,每增加一个用户给司机增加的效用为αd。假设用户和司机的边际效用无差异均为α,因此用户和司机在完成一个交易过程中会获得的交叉网络外部性效用为和,其中和分别为第i个平台司机和用户的人数。则用户的效用为,司机的效用为。两个网约车平台的用户分布分别为

两个网约车平台的司机分布分别为

平台的利润函数为

采用逆向求解法求平台的最优值。第1步,联立式(2)-(5),解出两个平台对应的用户和司机分布为

其中:

第3步,求出两个平台的最优利润,此时它们均与参数α、θ、τ、ci有关:

其中,最优用户和司机数量分别为

1.3 乘客违约行为的发生条件

下面采用比较静态分析找出用户违约行为的发生条件。当平台1提供的服务合意时,用户选择平台1 完成出行;否则选择平台2。平台服务合意的因素包括价格合理、质量有保证、服务及时和提供多种选项等。假设两个平台提供的服务质量一致,而服务及时、选项多元等因素由交叉网络外部性中的司机数量决定,则服务合意的影响因素主要由价格和交叉网络外部性决定。当时,用户选择平台1,即,若,则有,该不等式在p1p2,那么价格上升到足够高时,平台选择条件不再成立,此时用户会选择价格相对较低的平台2,则对平台1的违约行为发生。

根据上述分析,假设平台1 进行歧视性定价,当价格p1高于p2时,由于价格上涨所导致的平台1用户流失比率定义为订单违约率。在均衡状态,它与两个平台相互竞争下的参数α、θ、τ、ci有关。比如,在其他参数不变的条件下,竞争强度τ对乘客违约率的影响如图2所示,纵轴表示单位价格上涨所导致的用户违约率,横轴表示竞争强度τ。可以看出,随着竞争强度加大,两个平台提供的服务趋于同质化,乘客在平台之间选择的替代性减少,违约率降低;而随着竞争强度降低,违约率在[25%,50%]区间内变化,即相应的履约率(等于1-违约率)极大值为75%,极小值为50%。上述分析表明,优势平台的价格歧视会导致用户对订单的违约率上升,过高的定价使得用户选择其他平台或采用其他出行方式,用户最终的决定取决于两个平台交叉网络外部性之差与价格差之间的权衡。

图2 乘客违约率与竞争强度的关系Fig.2 Relationship between passengers’ order cancellation rate and competition intensity

2 实证分析

本节在理论分析的基础上,以国内某知名网约车平台公开的真实订单数据为研究对象,采用前沿的特征工程方法对算法个性化定价与乘客履约或取消订单行为之间的关联性进行实证分析:首先采用过滤法中的Bhattacharyya 距离判断每一特征类别的可分程度,然后以提升决策树(GBDT)为基分类器、对包裹法中的拉斯维加斯方法加以改进,识别出决定乘客是否履行预约订单的关键统计特征,即筛选出乘客履(违)约率的影响因素。

2.1 数据处理方法

所采用的数据来自国内某知名网约车平台2018年的公开数据集,共含988 175 条订单记录,每条记录包含订单id、司机id、乘客id,订单创建日期与时间、订单状态,预估行程金额、距离和时间,起点和终点区域id 等11 个字段。其中订单预约未成功242 838条,预约取消183 824条,实际完成交易561 513条。“行程金额”显示平均价格为75.52元,99%以上的数据分布在15~500 元区间。定义“订单履约率”指标为实际完成交易的订单数/预约取消和实际完成交易的订单数,计算可得75.3%,即每4张派单便会发生1次违约。

乘客履约与否问题属于典型的二分类问题,即依据特征将数据分为是与否两类,或称正类与反类。本节分3步进行特征筛选。

(1)属性构造:根据订单记录所提供的信息内容,构造出多组与所讨论问题相关的属性,具体操作参见文献[25]。

(2)特征初筛:采用过滤法中的Bhattacharyya距离进行初步的特征筛选。Bhattacharyya 距离JB是一种基于概率分布的可分性判据,直接考查某一特征下两类样本的概率分布情况,其定义为

其中,Pr(x|wi)(i= 1,2)为类条件密度,即连续随机变量x在类别状态为w时的概率密度函数。当两类概率密度函数完全重合时,JB= 0;而两类概率密度函数分离程度越高,JB越大,当两类概率密度函数完全不相交时,JB= ∞。

(3)特征终筛:在完成过滤式特征选择后,以GBDT 为基分类器,采用包裹法进行最终的特征筛选。提升决策树是机器学习及大数据分析中性能最好的方法之一,而包裹法直接把最终采用的学习器的性能作为特征子集的评价准则,因此所选择的特征最有利于提升学习器的性能。

包裹式特征选择通常可采用前向/后向贪婪搜索策略或拉斯维加斯方法、遗传算法等作为框架,但在特征选择过程中需多次训练学习器,计算量非常大。拉斯维加斯方法使用随机策略进行子集搜索,能较好地避开局部最优解,但在给定时间内不一定能给出满足要求的解。为此,本节对其搜索策略进行改进,改进的拉斯维加斯方法描述如下。

第1步 输入数据集D、特征集A、停止条件控制参数T。

第2步 初始化特征集的权值分布wi= 0.5,i= 1,2,…,d,d为特征集维数。

第3步 设定初始值,令学习误差E= ∞,特征子集A*=A,迭代次数t=0。

第4步 当t

①依权值分布wi的概率产生特征子集A′;

②通过交叉验证,计算出基类学习算法L在特征子集上所产生的学习误差E′= CV(L(DA′)),其中CV代表交叉验证过程;

③如果E′

④否则,令t=t+1;循环结束,并输出A*。

当包裹法以GBDT 为基学习器时,可极大地提高特征的搜索效率。GBDT的目标函数定义为

式(16)第1 项中,n为数据集样本数,损失函数用来衡量预测值与真实值yi之间的误差,对于二分类问题,通常选用负对数似然函数(或交叉熵)为损失函数。第2项为正则化项,其中K为决策树个数,Tk′为每棵决策树的叶节点数,wk′为叶节点权值的集合,γ、λ为经验常数。正则化项对特征进行了“稀疏约束”(即使特征的非零分量尽量减少),由此使GBDT 在训练过程中也能自动进行特征选择。训练过程可直接统计每个特征被选中的频次,并计算出其在优化目标函数时所带来的增益,因此可对每个特征所起的作用直接进行量化评估,这非常有利于特征选择。

2.2 结果分析

应用2.1 节的特征工程方法共筛选出17 维特征。为验证所选择特征的准确性,本节利用这17 维特征来训练一个包含5 000 个决策树的GBDT分类器。训练过程中采用8折交叉验证的方法,将988 175条订单记录分为8等份,每次依次取出1份数据作为校验数据,其余7 份数据作为训练数据。为衡量分类结果的准确性,本节以AUC(Area Under ROC Curve)指标来度量分类结果。AUC非常适用于评价求解二分类问题时的分类器性能,在概率意义上可理解为:对于二分类问题,任取一对正例与负例,分类器给正例的打分大于负例得分的概率;取值范围在0~1之间,AUC值越大,分类结果越好。

以8 次交叉验证的AUC 平均值作为最后的结果,最终分类结果AUC=0.985。一般情况考虑二分类问题并取阈值0.5,总分类准确率大于97.1%,表明本文应用所选特征可对乘客履约与否的情况作出准确的划分。所筛选出的17 维特征按其属性可分为6 类,表1 给出了具体的类别信息及每组特征的重要程度。其中,每组特征的重要程度以其在优化目标函数时所带来增益作为衡量,以百分比表示。

表1 决定履约率的关键特征及其重要程度Table 1 Key features of determining compliance rates and their importance

借助所选特征,可对乘客取消预约的行为作出准确合理的解释,主要有以下研究发现:

(1)运价是影响履约率的最重要因素,直接因素包括订单金额和行程单价,间接因素包括行程距离和时间。从表1可看出,订单金额的重要程度为42.812%,居第1 位,行程单价的重要程度为42.140%,占第2 位,表明乘客对价格因素非常敏感。图3 显示随着订单金额增加,乘客履约率从75%下降到50%以下。

图3 订单履约率与订单金额之间的关系Fig.3 Relationship between order compliance rate and order amount

由于传统出租车定价由计价器给出,具有较好的公信力,而网约车定价由算法决定,相对不透明而使乘客对其缺乏信任,因此网约车平台通过合理定价取得乘客的信任是促成交易的关键因素。在决定履约率的关键特征中,订单金额的重要程度排第1 位,也恰好验证了这一点。此外,表1 中行程单价类特征包括司机平均每千米运价(代表车型)及每张订单中行程距离/行程金额等特征。图4横坐标为行程单价的倒数,其含义为每元可搭乘的公里数,随着行程单价的增加,履约率从90%下降到40%(从右向左)。由于行程单价直接影响总金额的大小,因此也会较大程度影响乘客的履约率。

图4 订单履约率与订单单价倒数之间的关系Fig.4 Relationship between order compliance rate and reciprocal of order unit price

另外,对运价有直接贡献的行程距离、时间等也会间接影响乘客履约率。随着行程距离的增加(等同于行程时间增加),订单履约率逐步下降。以上与运价直接或间接相关的3类因素,其重要程度相加达到89.457%,因此可认为乘客消费行为的决定因素中90%可以由运价来解释,即运价的高低决定了乘客履约与否的决策。

(2)用车需求的时空不均衡程度也会影响乘客履约率。表1中订单时间类特征(包含日期、星期、时段等属性)反映了用车需求在时间上的分布不均衡状态,图5 显示履约率与约车时段之间的关系(横轴的数值表示时段,如0 代表[00:00,01:00)时段,依此类推),在04:00—06:00、08:00—09:00和21:00—24:00 时段乘客有超过30%的概率取消预约。分析发现,在这些时段运营的车辆最少或乘车的需求剧增,致使乘客重复预约与取消,造成履约率下降。例如,将“各时段的乘车需求数”减去“所有时段平均乘车需求数”,取其绝对值,这一数值反映了乘车需求的波动情况。计算这一数值与履约率之间的相关系数,得到的数值为-0.68,说明乘车需求的急剧变化与履约率之间呈现显著的负相关关系。在高峰时段乘客向多个平台发起预约请求,假如这些请求中有2个及以上得到响应,此时用户就必须取消多余的申请(即至少发生1 次违约),从而造成履约率下降。此外,热点区域的订单履约率低于非热点区域,原因在于约车成功率下降及候车时间增长导致履约率的下降。因此表1中第4和第5类因素实际上反映了履约率的时空特性,对乘客的最终消费选择也有较大的影响。如果以优化目标函数来衡量,可带来8.8%的增益,效果显著。

图5 订单履约率与约车时段之间的关系Fig.5 Relationship between order compliance rate and taxihailing period

(3)乘客消费信息(包含乘客累计消费次数、消费金额等特征)也会正向影响履约率。图6 显示随着乘客累积预约次数的增加,订单履约率从72%逐步上升至82%。乘客累积预约次数越多,消费金额越高,与网约车平台之间建立的信任关系就越强,这可以解释“常乘客”比新乘客订单履约率更高的现象。

图6 订单履约率与乘客累积预约次数之间的关系Fig.6 Relationship between order compliance rate and accumulated passenger appointment times

3 结论

网约车是最早实施算法个性化定价的商业领域,平台通过算法挖掘比对多源数据得到用户个人信息和历史消费行为,使价格与消费者的支付意愿相关联,不再基于供求关系所反映的价格规律,其所导致的信息不对称、自然垄断与算法共谋乃至对社会公平的冲击,使得政府规制具有必要性。本文借助网约车平台的交易大数据,通过构建机理模型和数据挖掘分析平台定价与乘客违约行为之间的关联性,发现乘客在平台上的最终消费选择主要取决于价格因素,而改进车辆匹配、派单策略,减少乘客候车时间可显著提高订单履约率。

与以往文献相比,本文的发现在动态定价、顾客画像、反不正当竞争和算法监管等方面具有政策价值,具体表现为:首先,从表面上看违约率是用户对合约的违背行为,但一定程度上是消费者在不合理定价下对自身利益的维护,因此违约率可以作为检测指标监控个性化定价的偏移程度,为平台定价的监管提供依据;其次,适度的个性化定价有利于提高社会福利,但平台经济的可持续发展还有赖于合理定价、增进双边市场的粘性、提高信息撮合效率、营造三方诚信的交易环境,研究结果证明了培养用户使用习惯与提高订单履约率之间呈现正向相关的特性,因此平台应通过制定合理的定价策略,保持供需双方的平衡,提高其相互依赖程度,营造交易三方诚实守信的氛围;此外,随着数据挖掘技术的进步,利用交易数据反推交易规则的算法日趋成熟,为算法监管提供了实时管理工具。本文采用多种算法有效解析了平台定价和交易规则,应用算法找出决定问题的关键特征,在此基础上进行数值分析,从而实现对平台运营状况的监控与预测,所采用的多种数据分析方法可为相关理论研究及政府监管提供重要的技术参考。除了平台和司机营收和用户违约率等指标外,监管者可以将大数据和相关算法作为管理工具,有效提升对复杂管理问题的回应性和数据辅助决策水平。

当前日益成熟的数据挖掘技术有利于探索平台算法个性化定价的内在规律,为市场监管提供科学依据,然而,算法个性化定价与乘客行为之间的相互影响机制还需要更精确的建模与仿真。如何将数据挖掘结果与机理建模更好地结合起来,也是今后进一步研究的方向。

猜你喜欢
网约订单定价
春节期间“订单蔬菜”走俏
网约车平台责任条款的识别方法——基于解释进路的正当规制
新产品订单纷至沓来
本刊2020年36卷第12期版权页定价勘误
网约车侵权责任在司法实践中的认定
网约车问题研究及对策
网约车安全性提高研究
“最确切”的幸福观感——我们的致富订单
基于分层Copula的CDS定价研究
帮爸爸定价