基于多元线性回归的众包平台定价方案优化研究

2018-10-22 10:42王徐瑶邹国昊朱红鑫
商场现代化 2018年13期
关键词:聚类定价会员

王徐瑶 邹国昊 朱红鑫

摘 要:随着互联网普及率的逐渐提高以及Web2.0时代网络虚拟产品交易的兴起,众包已经成为一种新型的电子商务模式,任务定价是众包平台服务的关键要素,优良的定价可以大大减少调查成本。本文针对众包平台任务定价问题,通过分析相关数据,建立多元线性回归方程,确定任务定价规律;采用SPSS软件对数据进行聚类,并利用MATLAB计算与拟合变量间的关系,建立逻辑回归方程预测修改方案的任务完成情况,进而定义任务完成度与平台效益值探究任务定价的合理性。

关键词:多元线性回归;Logistic增长函数;SPSS聚类;众包平台

一、引言

互联网行业的快速发展带动了Web2.0时代网络虚拟产品交易的兴起,“众包”也已然成为了一种新型的电子商务模式,并占据着越来越重要的市场地位,任务定价是众包平台服务的关键要素,优良的定价可以大大减少调查成本,有效的保证调查数据的真实性且缩短调查周期,但如果定价不合理,有的任务就会无人问津,而导致商品检查的失败。任务定价与多方面的因素有关,合理全面的考虑影响因素才能得到合理价格,才能促进自助式劳务众包平台的发展。

“拍照赚钱”APP就是一种典型的众包模式,用户通过自主领取APP中的拍照任务,获取相应的报酬,与此同时,发布者也可以通过这种模式迅速高效地收集到所需数据。本文通过分析前期获取的广东四市八百多个任务的定价数据,深入研究定价与地理位置的相关参数的关系,得到项目任务定价规律,综合分析多方面因素与任务完成情况的关系,设计新的任务定价规律,并与原方案比较利弊。实际情况下,多个任务可能位置比较集中,用户争相选择,一种考虑是将这些任务联合打包,一起发布,类似于滴滴打车的拼车,可以有效完成任务,且降低了调查成本。在这种考虑下,修改前面的定价模型,并分析任务完成的情况。最后,对打包发布的任务给出定价方案,并评价方案的实施效果。

二、研究模型的建立

1.数据收集

如上表显示为收集的两千多个新任务的数据,通过GPS经度和纬度可以详细定位出每个任务的位置。

2.模型假设

(1)假设任务难易程度相同,所有会员可以完成;(2)假设会员在是否完成任务时仅考虑性价比因素;(3)位置因素只考虑距离远近,不考虑地形,交通等不同情形;(4)假设任务定价完全由定价规律决定,无人为或政治等其他方面因素。

3.模型的建立与求解

(1)数据分析。①模型的准备数据的处理:基于数据量较大的基础上,首先对经纬度进行聚类,其算法流程图如下:

利用MATLAB软件,分别以经纬度为变量,从总数据数据中生成4个初始聚类中心,最后迭代500次后给出最终聚类中心。

首先,分析位置与定价的关系,绘制定价关于经纬度的图形,如图2任务定价关于经纬关系图:

在地图上搜查聚类中心,可以发现聚类中心为大型商业中心或市政府所在地,且把不同聚类类别的位置在地图上显示,主要分布在四个城市,分别为广州市、深圳市、东莞市、佛山市。

结果的案例数地图所在地基本符合广东四市地理分布,少量数据不符合规律已剔除。明显可得不同的地区任务数量差别很大,经济发达地区任务数量明显高于经济次发达地区。现对任务价格分析所处的不同地理位置的影响。用EXCEL表格根据所在地不同进行分类,计算可得深圳市的平均任务价格为68.21元、广州市79.35元、东莞市66.64元,佛山市65.39元.根据聚类得广州市与深圳市的任务数量与任务均价明显高于东莞市与佛山市,这说明地区经济发展情况与定价关系很大,且不同地区之间可能存在政府政策的影响。

②模型的建立:任务定价与多个因素有关,为探究具体变量对任务定价的影响,采用多项式拟合模型:

对多项式拟合,采用控制变量的方法,例如研究固定范围内会员数对价格的影响,控制其他变量不变,单独研究一个变量与浮动价格的多项式关系。

(2)模型的求解。任务受多种因素的影响,控制变量,首先分析所在地理位置与任务定价呈现的规律如图3:

得四个聚类中心分别为四个城市的中心,且距离市中心越远价格越高,因为市中心交通便利,会员集中,且市中心任务集中,可一次完成批量任务。所以距离市中心距离的远近是影响任务定价的重要因素,呈从中心向周围辐射现象。不同城市间也存在影响,相邻城市的共同影响区任务多,任务定价偏低。

現在具体讨论几个因素对任务价格的影响。首先所在地区经济对任务价格的基础性作用。如地区任务基本定价图4所示。

从图中可得地区决定定价的基本价格,地区经济富裕,基础价格高于其他地区,且呈中心递减趋势,符合实际的价格分布情况。

从图中可得与市中心的距离对定价有浮动价格影响,基本影响价格在5元-6元之间,且经济发达地区的浮动价格影响更加明显,距离市中心距离越远价格更高,但不是简单的线性关系,因为影响因素有交通便利度、会员数量、会员距离等多方面因素。

可得任务周围会员数与浮动价格成负相关,任务与会员距离成正相关。为避免图形的波动所以将任务周围会员人数坐标方向变化,形成任务与会员相对距离一致效果。首先规定会员执行任务的距离,规定会员会预约的任务在自己一小时车程内,统一规定为50千米,相对距离为到任务与50千米的比值,最后研究会员数量与会员和任务距离的函数关系。

图5中采取三种拟合方法,计算周围会员数与浮动价格的影响,分别为线性拟合、多项式拟合、样条插值拟合。样条插值拟合符合数据点变化,但没有具体函数表达式,多项式与线性拟合都有函数关系式。线性拟合的相关系数为0.98,拟合度良好。

由任务距周围会员距离关系可得,近似成线性关系,用线性拟合得函数关系式:

综合以上所有因素的影响的共同作用,探究因素非线性叠加对任务定价的影响,与原任务定价的吻合度。

由图可知,实际价格为零刻度线,模拟价格为波动在实际价格上下的红色圆圈。可见,残差值在-1.5-1.5之间,残差范围下,所以可知本题模型解法与平台原任务定价吻合度非常好。

①模型的修正:通过对原模型的分析发现,原方案仅考虑地理位置的相关参数,从忽略了会员的信誉值与预约时间,任务本身的时间限制等因素,说明定价策略非常不合理,所以综合考虑这些因素,设计定价方案。在定价方案制定过程中需要促进任务完成与提高平台收益。

刘晓钢在研究众包中任务发布者出价行为的影响因素中,分析相似任务出价的出价、任务难度、任务期限、相邻会员数量,任务位置等方面综合考虑定价问题。杨志国在申请专利多任务环境下众包平台定价方法提到众包任务发布者制定任务发布策略、众包平台迭代更新其价格策略。陈家银在猪八戒众包平台数据分析余众包模式设计指出接包计件模式最受参与者欢迎,并且计件模式的任务价格都与参与人数有着较强的正向性关系。

综合以上学者研究成果,我们建立多元线性回归方程,主要考虑城市经济基础,距离市中心距离,任务点距会员距离,预定任务开始时间,信誉值五个主要因素与任务定价之间的关系。

②新模型的建立:建立多元线性回归模型,所得数据提供了预定任务开始时间,信誉值这两组数据。城市经济基础由城市总GDP与人均GDP决定,距离市中心与任务点距会员距离可通过计算可得。

正态性:即随机扰动项服从正态分布

③新模型的求解:在原方案中我们已经考虑了部分因素对任务定价的影响,现增加预定任务限额、预定任务开始时间与信誉值三个因素,并修改原方案中因素对任务定价的影响关系。

信誉值主要体现在预定任务限额与预定开始时间上,故忽略信誉值的影响。分析可知任务预定时间随浮动价格呈二次函数关系,在预定时间的中值处浮动价格最高,对于任务预定限额则是预定限额越高价格越高,因为信誉值高,服务优质、可靠。

进行两个变量对因变量的影响分析与拟合,如图7,任务周围会员数量、距离市中心距离与定价的三维散点图并进行关系拟合。以东莞市为例。

以东莞市数据为例,任务周围会员数量、距离市中心距离对任务定价的影响,拟合结果理想,在两个自变量下定价大致符合平面方程规律。依次思想,拟合其他因素对任务定价的影响,最终可以得出五个因素关于定价的关系如下所示:

该方程关系式可得,验证方程的可行性,首先对所有位置点重新计算价格。

新的任务定价与原方案比较,个别数据具有偶然性,所以统一考虑总体数据的修改性。对数据进行分类,分为任务执行与任务未执行。

对比可知,任务被执行的定价平均值修改后低于修改前,再保证任务执行的前提下,说明成本花费减小,新的定价方案合理。任务未被执行的平均值修改后高于修改前,提高价格吸引会员完成任务,提升任务完成率。在提高任务完成的情况下,部分任务增价,部分任务减价,总的平台花费下降,提高了平台效益值。

④结果及解释:建立多元线性方程,拟合计算得到新的任务定价。对比新的任务定价与原任务定价对比。分为任务完成与任务未完成两个种类,两种任务下,未被完成的价格提高,完成的价格降低。修改后定价方案可以提高任务完成率,并降低任务成本,新方案合理。

3.模型的优化

在实际情况下,可能存在任务集中情况,一次执行多个距离较近的任务节省时间提高收入,所以用户会争相选择,所以统一将这些任务打包发布。我们研究打包可能和多个因素有关,比如距离,任务难易程度,任务性质等其他因素,根据所给数据,主要考虑任务点间距离因素。聚类后,任务数大幅减小,但部分任务任务量增大,所以需重新定价,给出新的定价规律。因为任务的重新分配,所以还需预测任务完成情况。

(1)优化模型的建立。建立修改多元线性方程,增加任务量自变量与修改原距离自变量关系式

首先根据距离对任务重新划分,综合考虑打包后任务量变化,执行任务的距离变化重新计算函数关系式的系数,从而得到新的定价规律。使用元胞向量机模型分类,与直接用距离分类相互印证、辅证。

元胞自动机由元胞空间、元胞狀态、邻居及进化规则四个基本要素组成。在数学上,可以用一个四元组表示:

式中A为元胞自动机,Zd为d维欧氏元胞空间,S是有限状态集合,可表示为:

Si代表元胞自动机的第i个状态;而N则是中心元胞的邻域,表示为:

其中Xi为相邻元胞对于中心元胞的位置;f为的进化规则,表示元胞状态由t时刻进化为t+1时刻所遵循的规则。因此,元胞自动机的动态演化就是时间上的状态组合的变化,数学函数如下表示:

(2)优化模型的求解

先在每个任务点处以固定的半径画圆,分析所有任务点的空间距离关系。

由图中可得,东莞市任务距离较广东市任务距离分布稀疏,不够密集,但也存在许多三四个任务点聚集现象,对这些任务点分布较密的采用打包现象。

采用上述方法,对八百多个任务点进行打包。具体结果为分为314个打包任务,打包内任务数基本为1-5个,距离相距较近,利于任务执行。打包内任务数集中在1-5个,任务数不多,任务量可以个人完成。在重新定价与打包数变化的基础上,现进行平台效益值分析,其如下图9所示:

打包任务数不能过多过少,这样都会使平台效益下降。平均定价如果太高,会员竞相选择,但平台花费增大;定价过低,会员无人执行,平台收益效果也不好。本文修改模型,首先合理的对距离进行分类,分类效果良好。然后在考虑任务执行情况与平台收益的基础上,给出定价规律,最终定价方案,促进了任务执行情况。分析结果如图10所示:

图中可得在平台投入资金相同时,打包后任务完成度明显高于打包前,打包后单个任务定价普遍低于打包前,但性价比明显提高,多个任务可一次完成,提高收入。

(3)优化模型的结果及解释

打包后的定价规律与原方案比较得,既提高了任务完成度也提升了平台效益值,花费更少,完成度更高。打包后的定价规律与原修改的定价规律相比,任务完成度相差不大,但平台效益值提升,即花费更少完成相同的任务。

参考文献:

[1]刘晓钢.众包中任务发布者出价行为的影响因素研究[D].重庆大学,2012.6.

[2]陈家银,猪八戒众包平台数据分析与众包模式设计[D].大连理工大学,2012.5.3.

[3]司守奎,孙兆亮.数学建模算法与应用[M].北京:国防工业出版社,2015.

作者简介:王徐瑶,女,江苏兴化人,江苏师范大学;邹国昊,男,江苏南京人,江苏师范大学;朱红鑫,男,江苏徐州人,江苏师范大学

猜你喜欢
聚类定价会员
扫地
欢迎选购
欢迎选购
最新出版图书
基于模糊聚类和支持向量回归的成绩预测
基于流形学习的自适应反馈聚类中心确定方法
会员专区
基于密度的自适应搜索增量聚类法
会员天地
会员天地