一种基于用户交易行为的隐语义模型推荐算法*

2017-11-20 01:50梁婧文蒋朝惠
网络安全与数据管理 2017年21期
关键词:准确度语义交易

梁婧文,蒋朝惠

(贵州大学 计算机科学与技术学院,贵州 贵阳 550025)

一种基于用户交易行为的隐语义模型推荐算法*

梁婧文,蒋朝惠

(贵州大学 计算机科学与技术学院,贵州 贵阳550025)

通过分析目前推荐技术在电子商务系统中的应用优势,并针对当前产品交易系统的无评分、产品量大和难以分类等现状与问题,设计了一种基于用户交易行为的隐语义模型推荐算法。该算法从用户的隐式交易行为出发,采用隐语义模型推荐算法,构建用户-产品兴趣模型,并加入K均值算法划分隐式特征聚类。实验验证表明,该算法在满足用户的个性化需求的同时,可提高电子商务系统的产品推荐效率。

推荐算法;用户交易行为;隐语义模型;K均值算法

0 引言

电子商务网站是个性化推荐系统的一个重要应用领域,各种著名的电子商务网站,例如亚马逊、淘宝、Netflix、京东等,都在各个方面使用到了个性化推荐,是个性化推荐技术最积极的应用者和推广者。

在主流的电子商务系统中大都采用协同过滤(Collaborative Filtering,CF)推荐算法[1],该算法是基于用户行为数据分析设计的,并且基于一种假设:用户过去喜欢的在未来也同样喜欢。最广泛使用的协同过滤算法有:(1)基于邻域(Neighborhood-based)的方法,包括基于用户(User-based)和基于产品(Item-CF)的,通过分析与用户之前喜好相似的产品或者推荐给用户与他喜好相似的用户所关注的产品来构成推荐模型;(2)隐语义模型(Latent Factor Model,LFM),使用某些隐含特征来关联用户兴趣和产品,并据此构建推荐模型。

对于电子商务推荐系统来说,如何建立用户的偏好模型是首要问题,但当前产品交易系统存在无评分、产品量大、难以分类等问题,同时对协同过滤算法中隐式反馈方面的研究也越来越广泛。因此本文从用户的隐式交易行为出发,设计了一种基于用户交易行为的隐语义模型推荐算法(User Transaction Behavior for Latent Factor Model,UTB-LFM)。

1 相关工作

自Netflix Prize推荐系统大赛之后,研究者对隐式反馈信息和隐语义模型越来越关注,近几年人们对LFM的应用与研究也越来越深入。2014年,YIN F L、CHAI J P[2]等人在数字电视节目的推荐中使用了隐式特征模型,通过对观众行为进行分析,确定观众兴趣与观看电视节目之间的关系,并据此为观众建议节目类型。CHEN C、ZHENG L[3]等人在LFM中加入偏置项,证明推荐的准确度较原始的LFM推荐模型有所提高。2015年,张玉连[4]等人提出了一种通过建立隐语义模型,分析用户和论文的特征向量进行科技论文的推荐,获得了较好的准确度。2016年,文献[5]将用户的某些属性信息融合到LFM上,即使用户历史行为数据稀疏,也可根据用户属性来寻找邻域用户,解决了稀疏问题。

上述研究都涉及到用户的隐式行为,隐式获取用户信息的方式主要包括:访问用户日志和挖掘、跟踪用户行为两个方面。同时,隐语义模型以其基于用户隐式行为设计的优势,通过收集用户隐式反馈信息来获取用户偏好的方式,已是目前信息提供服务领域关注的热点之一,为推荐技术的发展奠定了理论基础。因此,将隐语义模型推荐算法与电子商务系统结合,通过获取用户隐式的交易行为产生推荐,更加具有研究和应用前景。

2 基于用户交易行为的隐语义模型

2.1隐语义模型

2006年,Koren提出了隐语义模型,简称LFM。从矩阵分解方法出发,假设用户u对产品i的评分矩阵R可以分解为用户特征矩阵P、产品特征矩阵Q,两矩阵的乘积表示用户-产品评分矩阵,如式(1)所示:

(1)

其中P∈Rf×m和Q∈Rf×n是两个低维度矩阵。预测评分通过式(2)计算得到,其中puf=P(u,f),qif=Q(i,f):

(2)

为了求解该模型中各参数值,定义了损失函数如式(3)所示:

(3)

通过对上述损失函数求偏导数得到式(4)、式(5),利用随机梯度下降法不断迭代[4],即最小化损失函数求出P、Q中的参数,得递推公式(6)和式(7):

(4)

(5)

puf=puf+α(qif-λpuf)

(6)

qif=qif+α(puf-λqif)

(7)

其中涉及的重要参数包括:α表示学习速率,λ表示正则化参数。迭代次数根据实际误差情况进行调整。

由于实际的推荐系统有很多固定属性与用户、产品无关,而上述隐语义模型并没有考虑这种影响,因此,又进一步得到另一种LFM模型的预测公式(8):

(8)

其中μ+bu+bi称为偏置项,μ是训练数据集中全部评分值的全局平均数,描述系统属性对用户的影响;bu是用户偏置项,描述和产品无关的用户习惯;bi是产品偏置项,描述与用户无关的产品属性。再根据随机梯度下降法,得到式(9)~式(12)的递推公式:

bu=bu+α(eui-λbu)

(9)

bi=bi+α(eui-λbi)

(10)

puk=puk+α(qik×eui-λpuk)

(11)

qik=qik+α(puk×eui-λqik)

(12)

2.2基于用户交易行为的隐语义模型

构建用户兴趣模型的输入数据总体分为用户数据和产品数据,用户数据又包括用户自身的属性数据、评分数据、行为模式数据等,用户在产品交易时,有一些常见的情况,比如用户不希望通过对产品评分来表达个人的喜好,或者该系统并没有提供评分的功能,系统能够获得的仅仅是用户的交易行为。此外,一个系统拥有的产品数量非常巨大,难以通过人为手段对产品进行分类,直接计算相似性效率较低,且推荐不够准确。

针对上述问题,本文首先在交易数据中提取用户有过购买行为的数据,“1”表示推测用户喜欢该产品,“0”表示推测用户不喜欢该产品或不知道该产品,使用二进制反馈数据,也可以说是表示为0-1数据[6],构建初始化的用户-产品兴趣度矩阵。

然后根据隐语义模型的思想,把用户-产品兴趣度矩阵分解为两个低维度的矩阵P和Q,P是用户-隐式特征矩阵,表示用户对隐类的偏好程度,Q是隐式特征-产品矩阵,表示每个产品属于隐类的概率,用P和Q两个矩阵的乘积表示实际评分,这样得到的预测评分会更接近实际评分。最后,利用式(3)、式(6)、式(7)得到P、Q特征矩阵。

采用上述方法构建基于用户交易行为的隐语义模型,既解决人为分类产品导致的推荐不准确问题,又通过隐语义模型达到对用户交易行为矩阵降维的目的。

3 算法设计

基于用户交易行为的隐语义模型推荐算法(UTB-LFM)的流程如图1所示。

图1 UTB-LFM算法流程图

UTB-LFM的具体流程如下:

(1)基于用户交易记录,有过购买行为的产品选为正样本,设兴趣度Rui=1,采集同等数量的负样本,设兴趣度为Rui=0,使用0、1初始化用户-产品矩阵R;

(2)利用式(3)、式(6)、式(7)对矩阵R进行分解,得到针对隐类的用户特征矩阵P和产品特征矩阵Q;

(3)对产品特征矩阵Q使用K均值聚类算法[7]进行聚类,得到K个小规模的产品特征矩阵;

(4)根据目标用户的交易记录,找到已购产品所属类别,在相应类别中,根据产品的特征权值,计算产品之间的相似性,其中相似度计算使用余弦相似性度量方法,如式(13)所示[8]。产品i与产品j的相似度公式中的Ri,f和Rj,f分别表示产品i属于f个隐式特征的权值和产品j属于f个隐式特征的权值,选取的隐式特征个数用F表示。

(13)

(14)

4 实验数据及结果分析

4.1实验环境及数据集

实验使用MovieLens数据集,其中包括943个用户和1 682个电影资源组成的100 KB的评分数据(1~5)。反复测试实验误差,选择80%的实验数据作为训练数据,20%的实验数据作为测试数据,表1是实验运行环境。

表1 实验环境表

4.2评价指标

推荐准确度是评价推荐算法最基本的指标之一,由于推荐系统的主要工作是根据用户的偏好提供给他可能喜欢的产品,所以将准确度看作是用户对推荐结果的认可程度。最常用的评价推荐准确度的方法是均方根误差(Root Mean Square Error,RMSE)[9],准确度越高则该值越小。因此,本文使用RMSE来衡量推荐算法的准确度。此外,通过推荐运行时间对使用K均值聚类缩小查找范围的效率进行评估。RMSE表达准确度如式(15),其中T为预测评分的总个数。

(15)

4.3结果分析

4.3.1推荐模型评估

采用RMSE比较本文设计的UTB-LFM、User-CF和Item-CF三种算法的预测准确性;并比较隐式特征F的不同值对推荐模型效果的影响。

(1)不同隐式特征个数F对应的RMSE

本文选择α=0.006,λ=0.015进行实验,在训练集上迭代14次,并且学习速率按照每次迭代缩减0.9倍的速度递减。实验结果如图2所示,其中User-CF算法选择最优的邻居数为80个。

图2 不同F值在各推荐模型下测试的RMSE值

通过实验发现,由于UTB-LFM中包括学习的过程,因此算法的RMSE较User-CF和Item-CF小,推荐的准确度高。同时随着隐式特征个数F值的增加,UTB-LFM算法的准确度也随之提高。而两种基于邻域的协同过滤推荐算法没有引入隐式特征值,算法的准确度不会变化。

(2)不同学习速率和迭代次数对RMSE的影响

选择隐式特征F值为200,通过改变学习速率和迭代次数,保证基本相近的RMSE值,实验结果如表2所示。

表2 不同学习速率和迭代次数对RMSE值的影响

从表2得出,学习速率从0.005增加到0.01的过程中,保证准确度的前提下,迭代次数逐渐减少,构建模型时间变短。因此可以通过增加学习效率来减少算法迭代次数,提高效率。

4.3.2产生推荐时间评估

比较UTB-LFM、User-CF和Item-CF三种推荐算法的推荐运行时间,并验证不同聚类数K值对UTB-LFM产生推荐运行时间的影响,实验结果如图3所示。

图3 不同K值在各模型下的推荐运行时间

通过实验比较发现,UTB-LFM算法的推荐时间比User-CF和Item-CF算法短,且随着K值的增加推荐时间逐渐降低,提高了推荐效率。

5 结论

本文主要对隐语义模型推荐算法进行研究,并针对当前电子商务系统以及交易数据存在的问题,提出了一种基于用户交易行为的隐语义模型推荐算法(UTB-LFM),该算法能够在电子商务系统中通过获取用户的隐式交易行为,为用户提供产品推荐。通过与基于用户的协同过滤推荐算法和基于产品的协同过滤推荐算法的比较实验,验证了算法的准确性和推荐效率均有所提高。

[1] 马小龙.基于协作过滤算法的电子商务个性化推荐系统的研究[J].微型机与应用,2014,33(15):13-15.

[2] YIN F L,CHAI J P,LI N,et al.Digital TV program recommendation system based on latent factor model[J].Applied Mechanics & Materials,2014(513-517):1692-1695.

[3] CHEN C,ZHENG L,THOMO A,et al.Comparing the staples in latent factor models for recommender systems[C].ACM Symposium on Applied Computing.ACM,2014: 91-96.

[4] 张玉连,袁伟.隐语义模型下的科技论文推荐[J].计算机应用与软件,2015,32(2):37-40.

[5] 巫可.基于隐语义模型的个性化推荐算法的研究[D].广州:广东工业大学,2016.

[6] HAHSLER M.Recommenderlab: a framework for developing and testing recommendation algorithms[EB/OL].(2015-XX-XX)[2017-04-20].https://cran.r-project.org/web/packages/recommenderlab/vignettes/recommenderlab.pdf.

[7] 何佳知,谢颖华.基于密度的优化初始聚类中心K-means算法研究[J].微型机与应用,2015,34(19):17-19.

[8] 付芬,豆育升,韩鹏,等.基于隐式评分和相似度传递的学习资源推荐[J].计算机应用研究,2017,34(12):1-8.

[9] 程超,杨力,陈嘉鑫.融合语义关联挖掘的文本情感分析算法研究[J].硅谷,2013,56(13):99-103.

Latent factor model recommendation algorithm based on user transaction behavior

Liang Jingwen,Jiang Chaohui

(College of Computer Science and Technology,Guizhou University,Guiyang 550025,China)

Through analysis of the application advantages of recommendation technology in e-commerce system,and in order to solve the present situation and problems of the product trading system without scoring,large volume of products and difficult classification,a latent factor model recommendation algorithm based on user transaction behavior was designed,which starts from the implicit user transaction behavior,and constructs the interest model between users and products,which uses latent factor model recommendation algorithm,and K-means algorithm is used to cluster implicit feature.The experimental results show that the algorithm meets the individual needs of users,and can improve the recommendation efficiency of e-commerce system.

recommendation algorithm; user transaction behavior; latent factor model; K-means algorithm

TP312

A

10.19358/j.issn.1674-7720.2017.21.005

梁婧文,蒋朝惠.一种基于用户交易行为的隐语义模型推荐算法J.微型机与应用,2017,36(21):15-18,25.

贵州省基础研究重大项目(黔科合JZ字[2014]2001-21)

2017-05-10)

梁婧文(1990-),女,硕士研究生,主要研究方向:数据库与软件工程。

蒋朝惠(1965-),通信作者,男,硕士,教授,主要研究方向:数据库与软件工程、网络与信息安全。E-mail:jiangchaohui@126.com。

猜你喜欢
准确度语义交易
Phosphatidylinositol-3,4,5-trisphosphate dependent Rac exchange factor 1 is a diagnostic and prognostic biomarker for hepatocellular carcinoma
语言与语义
幕墙用挂件安装准确度控制技术
大宗交易榜中榜
大宗交易榜中榜
“社会”一词的语义流动与新陈代谢
动态汽车衡准确度等级的现实意义
“上”与“下”语义的不对称性及其认知阐释
“吃+NP”的语义生成机制研究
大宗交易