考虑不同平台评论情绪的电商产品销量预测研究

2021-03-30 05:57朱道平张灿凤
市场周刊 2021年3期
关键词:变量销量论文

朱道平,张灿凤

(广东工业大学管理学院,广东 广州510520)

随着人们的消费升级,价格俨然不再是影响需求的唯一因素,产品销量到底受到哪些因素的影响,一直是学者们研究的热点。 电商交易存在着信息不对称问题,信息较少的消费者为了减少交易风险,在做出购买决策之前通常会在网络平台收集产品的相关信息。 根据社会认同原则,Trusov 等发现,电子商务活动中历史消费者体验后生成的信息在消费者决策中起着至关重要的作用。 此外,学者们研究也发现历史购买记录、在线评论和买家的反馈评分等消费者行为的统计结果,会对产品销量产生影响。 相关数据显示,98%的客户在消费前会参考不同网络平台的评论内容。 可见,用户评论在消费者购买决策中占据重要地位。

一、 相关综述

在线客户评论是消费者使用产品后发表的感想,形式可以是图片、文字甚至视频。 在线客户评论来源可以分成两类:一类是电商网站,例如京东商城、淘宝、亚马逊商城等;另一类是第三方网站,这类网站不销售商品,但是提供产品资讯和用户交流信息,比如中关村在线、太平洋电脑网等,也包括社交媒体平台如微博。 有学者指出这两类网站对于产品的评论存在内容、数量、可信度的差异。 当前关于在线客户评论对销量影响的研究主要集中于电商平台,如崔香梅和黄京华通过采集淘宝数据,使用相关性分析和多元线性回归,发现好评数对交易数有显著的正向影响。 何喜军等针对京东商城的联想ZUK Z2 手机产品,综合考虑影响电商产品销量的多维指标(在线搜索、在线评论、情绪指数等)并利用熵值法融合同类指标,进行销量预测。 除此之外,少量学者把第三方网站与电商平台的在线客户评论进行整合研究,如袁海霞等对比电商平台评论与微博口碑对新产品销售的动态影响,虽然较单一电商平台研究进行了补充,但仅从评论数量上进行研究,没有探索评论内容的影响。

梳理现有电商销量预测研究可以发现,学者们除了关注传统预测因子外,也逐渐把在线客户评论作为影响因子。 在线客户评论作为预测因子,主要是利用了电商平台评论的数量特征,也尝试利用评论情绪,但是很少探索第三方平台评论情绪对销量的影响。 因此,论文在销量预测时,加入第三方平台的评论情绪指标。 同时,考虑到电商销量的影响因素众多,论文也选取了传统的预测因子,探索这些因素对于销量预测的重要性。 论文选取了回归分析和神经网络算法进行对比和预测,以期寻找到合适的电商销量预测模型。

二、 考虑不同平台的评论情绪销量预测模型的构建

在线客户评论的数量庞大、非结构化,处理起来烦琐,有时会被研究者忽略,将关注点放在评分、评论数量及长度、价格等显性因素上,较少考虑评论情绪这种隐性因素对销售预测的作用。 论文将把电商平台和第三方平台的评论情绪作为影响因素,进行销量预测。 具体的研究路线如图1 所示:

图1 研究路线

(一)数据收集

论文选择手机作为实验对象,因为电商销售预测研究主要集中在电子产品类别上。 依据论文研究假设,数据集来源于两部分:一部分是电商平台内部数据,选取京东商城上销量前300 的手机,并使用八爪鱼采集器提取其销售详情页的价格、促销、评论、产品上市时长等信息;另一部分是第三方平台的外部数据,论文选用了新浪网微热点提供的热度指数和情绪指数,该平台实时分析海量数据,可以客观反映某事的热度和情绪倾向。 研究采集了2020 年6 月1 日至6 月30日为期30 天数据量。

(二)数据预处理

收集的原始数据存在诸多噪音或不可量化,需要经过预处理,才能用于预测建模。 去除缺失值和异常值,有效数据集有3973 条记录。 进一步,还需对数值数据进行标准化处理以及对文本数据进行情感指数计算。

对于数值数据,如价格、促销等,变量之间的量差非常大,为了减小数据的可变性,论文采取了标准化处理,经过处理的数据的均值为0,标准差为1,这是目前用得最多的数据标准化方法,其公式为:

其中,和sj分别为第j指标观测值的均值和标准差。

对于文本数据,如评论属于非结构化数据,需要转换成可以计算的数值。 论文利用文本处理工具Python 中的Jieba进行预处理,具体步骤包括:文本去重、句子切分、文本分词、去停用词等内容。 评论文本经过预处理后,利用知网HowNet情感词典的扩充版本对文本进行情感分析,并计算出每条评论的情绪评分。 对于每条评论,首先计算分句的情感得分,具体公式如下:

其中,Di为程度副词得分;Sj为程度副词后的情感词得分;Nk为否定词得分。

得到分句的评论情绪得分后,将这条评论的所有分句得分求和,得出此评论的总得分scroet,然后将一款产品一天采集的T条评论进行汇总并求均值

对收集的数据进行适当的处理后,最终选择的变量有:当前价格、促销金额、上市时长、好评率、好评数、差评数、差评回复占比、会员占比、好评情绪得分、差评情绪得分(来源于京东商城),以及微博热度、微博情绪(来源于微博),这些基础变量与现有电商和在线销售研究相吻合。

(三)模型构建与预测

首先探索各因素对销量的影响,同时也分析这些变量之间的交互效应对销量的影响,论文分别用线性回归、BP 神经网络两种方法进行九组实验,具体的实验设计如表1。

表1 实验方案

以上的差评情绪得分×好评数、好评情绪得分×差评数、价格×好评数、会员数×差评数和促销金额×差评数5 个交互效应新变量是通过参考相关文献研究结论并进行变量间的相关性分析得到的,表2 为部分变量之间的相关性。 其中价格、促销金额、好评情绪得分、差评情绪得分、会员数与销量和好评数及差评数的相关性都很小,于是在这几个独立变量的基础上构造5 个交互效应新变量。

表2 部分变量之间的相关性分析结果

1. 线性回归分析是采取逐步的方式,首先仅考虑电商平台的预测因素,接下来引入微博平台采集的微博情绪和微博热度两个预测因素,最后添加交互效应的五个因素,具体的回归结果如表3 所示。

表3 线性回归中各变量的表现情况(回归系数)

续表

2. BP 神经网络进行商品销售预测前,将数据集的70%作为训练集,剩余的30%作为测试集。 首先将12 个基础变量作为BP 神经网络的输入,训练出第一个人工神经网络模型。 然后将五个交互项引入第一个人工神经网络模型,图2给出了基于人工神经网络模型输入变量的预测重要性排行。

图2 BP 神经网络模型中各变量的重要性排名

(四)实验结果与分析

研究的主要目的:一是探索不同平台评论情绪对销量的影响情况,同时探索其他变量的重要性;二是探索线性回归、BP 神经网络对销量的预测能力。 表4 总结了两类模型的实验结果,除了R2以外,还选用了均方根误差RMSE,对9 个模型进行比较,结果如表4 所示。

表4 两种预测模型的结果对比

比较实验一和二可以发现,R2和RMSE 都有所改善,说明第三方社交平台的评论情绪对销量具有一定的影响。 其次在实验二模型的基础上加入交互项,R2和RMSE 也同样发生了改变并优化,说明这几个变量本身虽然对销量的影响不显著,但是其可能会通过调节其他重要预测因子与销售的相互作用来影响销售。 这一现象通过对比加入5 个交互项的BP 神经网络模型所带来的RMSE 改善得到证实。

除了比较销量与预测因子的关系和重要性以外,从表4可以发现,机器学习模型在自变量维度较复杂的时候会显现一定的优越性(BP 神经网络模型的RMSE 小于线性回归模型),并且可以解决线性和非线性问题,不会受变量相关性影响。

三、 结论

论文对线性回归、人工神经网络两种建模技术进行比较分析,探讨电子商务背景下,不同平台评论情绪和其他预测变量及其相互作用的重要性、建模技术的适用性等问题,首先通过比较各种预测因素的重要性,得出了如下的一些结论:

第一,论文的研究重点是调查评论情绪与销量的关系,然而线性回归模型中,电商平台的情绪因子都没有被视为重要的预测指标,BP 神经网络模型也只是将它们的重要性划分在0~0.05 之间。 与之前不少学者指出的差评比好评更重要的结论相矛盾。 关于评论情绪对销量预测的重要性,结合现有的一些研究结论,论文给出了两点解释:

(1)因为存在一些刷单、刷评论的操作,买家对评论的真实性怀有半信半疑的态度,所以他们不太在意这些评论的情绪。

(2)京东商城自营的商品可能因为品牌效应收获了客户一定的信任,就不会过多地考虑评论情绪。

尽管与情感相关的因素不能作为独立因素,但是在两类模型中好评情绪得分×差评数、差评情绪得分×好评数的回归系数显示其为销量的重要交互预测因子。 这表明,积极的情绪会缓和差评数带来的负面影响,而消极的情绪也会干扰好评数对销售的促进作用,所以店铺不能忽视评论内容的重要性,而且需要鼓励买家撰写好评来提高评论数量。

第二,第三方平台的微博热度和微博情绪是两类模型的预测变量,这说明第三方平台也会传播产品的正负面信息。实验二比实验一的R2增大了0.005,可见加入第三方平台的预测变量后预测效果更好,因此适当的参考其变化也可以对销量预测带来帮助,热度越高,销量越高,积极情绪越强,销量越高。

第三,观察其他变量显示,价格与好评数、促销金额与差评数的相互作用被认为是两类预测模型的重要预测因子,因此证明了好评数和差评数的效果,在三个回归模型中,这两个变量均被认为是重要的独立预测因子,而价格和促销金额对它们与销量的关系产生了调节效应,并是不可忽视的指标。

猜你喜欢
变量销量论文
丹麦去年酒类销量增长近8%
4月汽车销量225.2万辆同比增长8.6%
2018年12月与上月相比汽车产量略降销量小幅增长
本期论文英文摘要
2016车市销量一览表
本期论文英文摘要
本期论文英文摘要
分离变量法:常见的通性通法
2013年5—12月最佳论文
不可忽视变量的离散与连续