基于径向基函数的在线学习算法在淘宝商铺营销预测中的应用

2019-12-27 04:05侯蓉
中国集体经济 2019年36期
关键词:大数据

侯蓉

摘要:文章介绍了径向基函数(RBF)的原理、学习算法及其在电子商务领域中的应用。文章研究的增量RBF模型及窗口式在线RBF模型都具有较好的泛化性能,以淘宝网的“淘宝眼镜销量”作为实例,将增量式RBF学习算法以及在线式RBF学习算法模型应用到淘宝网的眼镜销量的预测中,实验结果证明,基于径向基函数的在线RBF学习算法模型可为淘宝网眼镜销量预测提供参考依据。

关键词:大数据;径向基函数(RBF);增量学习算法;窗口式在线学习算法

中国作为最大的发展中国家,近几年经济增长趋势日益快速,整体经济发展较为平稳,国内居民收入也不断提高,保障了电子市场的繁荣发展。随着我国经济供给侧改革,电商将在推动我国经济增长的过程中起着举足轻重的作用。电商不仅引领消费者的购物习惯和生活方式的变革,也成为了拉动消费增长的主力军。

天猫淘宝网的注册用户数截至2018年3月已经达到了5.52亿,据相关数据表明,每天有几千万固定访客,平均每分钟售出5万件左右商品的商品数。当天猫的注册用户数量急剧攀升,交易数量急剧增加,数据流也随之不断扩大,而如何处理并利用好这些数据对商家就显得异常重要了。商家通过提高自身经营信息化水平,通过对大数据的分析处理从而提取有价值的信息和知识,不仅可以增加其经营、管理及决策的科技含量,还可以提高商家的竞争优势从而扩大商业规模,促进企业发展。

大数据的重要性使得各个企业乃至各个行业都开始研究其带来的价值。通过统计、分析、建立数据模型,依据对相关数据的分析,找出问题和趋势,为店铺的整体运营决策提供充分的数据支持,从而提升营业额和流量。本文主要探讨如何采用径向基函数处理大数据,针对RBF增量式在線学习算法来实现。本文算法通过严格的数学推理,将RBF增量式在线学习算法转化为分块矩阵求逆的递归运算。并将该算法应用到了以淘宝网眼镜销量的预测中,经试验结果表明,本文所提方法能有效地处理大数据的预测分析问题。

一、径向基函数的在线学习算法

增量式在线学习,样本集是递增的,即样本集{(X■,Y■)}■■(t表示一个自然数)随着时刻的递进而每次新增固定数量(l个)的样本。令样本集表示为{(xi,yi)},其中x(t)=[x1,x2,…,xt],y(t)=[y1,y2,…,yt]T,xt∈Rn,yt∈R。则根据上文,我们可以把径向基函数矩阵表示为矩阵A的形式,即:

A=φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||)φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||)      ┆                    ?埙                       ┆φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||)■

径向基函数的输出表达式为:

f(x)=■βiφ(||x-xt||)(1)

当用径向基函数表达式作为预测模型时,需要满足如下的插值条件:

f(xt)=F(xt)(2)

即 A·βt=F(3)

其中,F=F(1)  ┆F(t)(4)

当(4)式在样本点不重合,且函数A为正定函数时存在唯一解,此时

β^=A-1×F(5)

从式(3)可以看出,如果要求出■,则必须要求出径向基核函数A的逆函数A-1。在A的行列式维数较高的情况下,求逆的复杂性较大,所以我们可以通过分块矩阵计算的技巧来求解A-1。

在t时刻,径向基函数矩阵At是t×t的方阵:

A=φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||)      ┆                    ?埙                       ┆φ(||x■-x■||),φ(||x■-x■||),…,φ(||x■-x■||)

在t+1时刻,新数据样本(xt+1,yt+1)将会加进来,样本总数将达到t+1个,此时核函数为(t+1)×(t+1)维的方阵At+1,它比t时刻的核函数At多一行一列:

A=φ(||x■-x■||) φ(||x■-x■||) … φ(||x■-x■||) φ(||x■-x■||)      ┆            …          ?埙      …                  ┆φ(||x■-x■||) φ(||x■-x■||) … φ(||x■-x■||) φ(||x■-x■||)φ(||xt+1-x■||) φ(||xt+1-x■||) … φ(||xt+1-x■||) φ(||x■-x■||)■

At+1是一个(t+1)×(t+1)维的方阵,我们通过对At和At+1的元素进行比较可以看出,At+1可以写成如式(10)的分块矩阵的形式:

At+1= A■     H(t)H(t)■  f(t)(6)

其中,H(t)=[φ(||x■-x■||),…,φ(||x■-x■||)]T

f(t)=φ(||x■-xt+1||)

我们先定义一个分块矩阵B,此时B为:

B=B11 B12B21 B22

当B-1和B■■存在时,则有如下结论:

B=B11 B12B21 B22=B■■ 0  00+B■■B12(B22-B21B■■B12)-1B21B■■ B■■B12(B22-B21B■■B12)-1-(B22-B21B■■B12)-1B21B■■(B22-B21B■■B12)-1=B■■ 0  00+B■■·B12  -E·(B22-B21·B■■·B12)-1[B21·B■■ -E]

其中B11為一对称矩阵,B12为一列向量I,B21为行向量IT,B22为一个不为零的标向量q,令A=B22-B21·B■■·B12上式可以简化为:

B-1=B■  B■B■  B■■=■B■■  00     0+B■■·I E·A-1·[IT·B■■  -E]=B■■  00     0+R·RT·Z

(7)

其中,R=[IT·B■■  -E]

Z=[q-IT·B■■·I]-1

借鉴文献[10]中分块矩阵的求逆方法式可以求出A■■:

A■■=At        A(t)H(t)T   f(t)=A■■  00     0+r1(t+1)r1(t+1)TZ1(t+1)(8)

其中,r1(t+1)=[H(t)T·A■■,-E]T

Z1(t+1)=[f(t)-H(T)T·A■■·H(t)]-1

由式(8)可以看出,A■■可以通过A■■递推求得,当t比较小的时候,可直接求得矩阵A■■,如当t=2时,求得A■■,这样就避免了大矩阵的求逆运算,从而提高运算效率。

综合以上讨论,径向基函数(RBF)的增量学习算法可以总结如下:

1.初始化,求出A■■、β(1);

2.令t=2,根据初始数据计算A■■,β(2);

3.采集新数据,得到新数据对[x(t),y(t)],用式(12)计算A■■;

4.计算β(t),再利用式(5)■βtφ(||x-xt||)计算y(x,t);

5.令t=t+1,回到(3);

6.当所有样本训练完毕,增量算法循环结束。

二、在线RBF在淘宝商铺营销预测中应用的仿真实验

(一)数据集说明

本文主要研究的是基于径向基函数的在线学习算法在淘宝网商户进行营销预测的应用分析。所以本文采用了由某数据供应商提供的“淘宝搜索眼镜销量排名100页宝贝”的数据。通过对本章收集的4999条数据进行分析,发现一共有18个变量即18个维度。其中商用名称和信用这两个文本变量本实验无法进行数据处理;其他16个变量是数值型变量。

(二)数据处理

首先,由于本文获取的数据集中的16个数值变量里的主信用占比的所有数据显示都为100,所以舍去这一变量;其次,在数据集中还有2个文本变量,且其中的“信用”这一文本变量对我们最后需要预测的结果具有一定的影响度,所以在实验之前,首先要对数据集中的文本信息变量“信用”进行分析转变。从淘宝平台可知信用变量主要含“天猫、心、钻、金冠、蓝冠、其他”六个等级,每个等级下又分5个不同的低一等级,通过将获取的数据按照信用变量这一类别进行整理分析得表1。

从表1中可以看出,获取的数据主要表现为20中不同信用等级表现,且不同的信用等级其所对应的频数也不同,及不同的信用表现对商品的销量具有一定的影响力。根据表1所示,频数最高的是“天猫”,其次是“4心”,再次是“3蓝冠”、“1蓝冠”,最后是“2心”、“2金冠”、“其他”;采样的数据集的整体信用分布较为均匀。根据淘宝有关信用分级的规定,我们将总共21类信用等级根据信用好坏来进行赋值,信用好对应的分数就高,信用差的对应的分数就低,具体的分数取值如下表2所示。

根据表2中将信用进行数值化处理的规则,我们将信用这一变量加入其它数值变量行列中进行统计量整理,如表3所示。由表3可以看出,宝贝收藏量的最大值为90043,最小值为0,标准差高达4085.989,说明不同的商品种类收藏量的差距较明显,客户的偏好程度较为明显。

(三)实验结果与分析

本文实验首先是对淘宝网数据进行增量学习实验部分的结果,增量学习实验部分我们对其的预测精度及数据训练时间进行了统计。实验第二部分是对淘宝网数据进行窗口式在线学习的实验部分,通过对数据集进行预测来评判训练模型是否满足要求。

在本次实验中,对实验的预测精度的判别方式为考量其误差率,公式为:

误差率=(|实际值-预测值|)/实际值*100%

由于本实验分为两个部分进行,所以我们将数据集分为两个部分,第一部分是用于增量学习的数据,取前500个数据进行实验;第二部分是面向流式动态数据的窗口式在线学习算法的数据,取数据集的后3453个数据进行实验。

本次实验的基于径向基函数的学习算法的实现和仿真均是基于MATLAB实现的。增量学习以及离线学习的实验结果如图1和图2所示。

为保证实验的公平性,上述实验的增量算法与离线算法是在相同的环境下进行的实验,且采用了同一组数据集。两种算法的运行时间结果如图1和图2所示,相同的样本集,增量学习的时长明显比离线学习的时长要短很多。说明增量学习算法有效的解决了海量数据运算时间长的问题。在淘宝网的用户与客户之间的实时交互过程中,会产生大量数据,增量算法既弥补了机器存储空间不足,也提高了数据处理的训练效率,大大缩减了数据处理的时间成本。

数据集的前500个数据的实验结束之后,以前500个数据作为初始数据,构建在线RBF模型,并对数据集的后3453个数据进行实时在线处理。此实验的窗口固定为500,然后每次递进一个新的数据,同时删除窗口内的一个旧数据,更新模型,再对下一个数据进行预测,依次类推,直至数据训练结束,实验完成。本实验对流式数据处理的误差结果如图3所示。

通过对前文中的数据集进行简单的统计处理可知,在18个变量中“近30天的平均成交量”(即本实验需要预测的销售量)这一变量的基本情况如下,其中最小值为18件,中位数为56件,平均数为218.3件,最大值为9798件。对数据集中的后3453个数据进行预测的误差,并且对这3453个误差结果进行求取平均误差率,结果为0.2251%。无论是标准误差的差值大小,还是平均误差率的实验结果,都是比较精确的,很好地实时处理了流式数据,这也验证了在线RBF学习算法的有效性。图3中在横坐标为2500左侧出现了较大的波动,是由于该店铺在该销量的时段采取了一些营销手段,以比平时更低的价格进行推广活动,从而促使了销量与平时的销量相比出现了较大的差距,从而导致了实验结果的出现。但是该实验的整体预测结果较为平缓,依旧是具有说服力的。本实验的所采取的算法适合较为常规的销量预测,对于突发状态及其他一些偶发情况的预测时,波动可能会较大,但实验误差都在可接受范围之内,在线RBF学习算法对于处理流式动态数据依旧是有效的。

三、结论

在线RBF学习算法在淘宝网的商品的销量预测得到了很好了应用,通过预测结果分析用户对商品的喜好,并根据不用客户的偏好进行设计“私人订制”的推荐营销,提高订单成交的成功率;并可以根據预测结果制定合理的库存管理、商品订购等运营规划。在线RBF学习算法为电商企业的精准营销以及科学管理提供了有效的理论依据,该算法具有一定的社会实用价值。

参考文献:

[1]Kum H C, Ahalt S, Carsey T M. Dealing with data:governments records[J].Science,2011(6035).

[2]阿里巴巴公布2018年财年报告:营收2502.66亿元,同比增长58%.搜狐科技频道[EB/OL].http://www.sohu.com/a/230459978_485557,2018-05-04.

[3]陈原,刘惠,周文豪.大数据在淘宝网电子商务模式创新中的应用研究[J].价值工程,2015(05).

[4]黄丹丹,王明宇,刘淑珍.阿里大数据战略探析[J].电子商务,2013(12).

[5]Viktor, Mayer-Schonberger, Kemeth, et al. Big Data:A Revolution That will Transform How we live,work,and think[M]. Hodder & Stroughton,2012.

[6]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012(06).

[7]Michael V,Boland, MD,Big Data,Big Challenges[J].Ophthalmology.2016(01).

[8]Liran E and Jonathan L,Economics in the age of big data[J].Science,2014(6210).

[9]周晓剑.基于径向基函数的分数年龄假设[J].统计与决策,2016(03).

[10]张浩然,汪晓东.回归最小二乘支持向量机的增量和在线式学习算法[J].计算机学报,2006(03).

(作者单位:南京邮电大学管理学院)

猜你喜欢
大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索