数据挖掘技术在电子商务中的应用研究

2015-12-18 14:42程军锋
安阳师范学院学报 2015年2期
关键词:数据挖掘聚类电子商务

程军锋

(陇南师范高等专科学校 数信学院,甘肃 陇南 742500)



数据挖掘技术在电子商务中的应用研究

程军锋

(陇南师范高等专科学校 数信学院,甘肃 陇南 742500)

[摘要]随着Internet的日益普及,电子商务作为一种新型的商业形式,可以通过网络进行产品的推广、销售等。数据挖掘技术是一种有效的数据分析和处理技术,通过相应的关联规则、分类、聚类、预测技术等对销售数据进行分析和处理,发现数据中隐含的知识,进而可以为营销策略的制定和产品开发提供决策,在电子商务中有着广泛的应用。

[关键词]电子商务;数据挖掘;聚类;个性推荐

0绪论

网络技术的发展改变了人们的生活方式,现如今通过网上购物已经成为一种潮流,网上购物占社会消费品总额的比重越来越大。电子商务区别于实体店购物形式,就是通常所说的借助互联网面向消费者销售产品或提供服务的一种新型商业模式。指个人或企业通过网络,以电子交易方式进行和开展商务活动,包括广告、销售、付账等服务,通过线上的销售和支付,然后再通过线下把物品送达或提供服务的一种商业模式。电子商务作为一种新的商业模式促使经济领域发生了重大变革,提供了一种快速、方便、低价等特点的新交易平台,突破了传统商务活动的时空限制。

电子商务活动的快速发展,使得网上相关数据爆炸性的增长。这些电子商务产生的数据,数据量大,隐含巨大的商业价值,对开展电子商务有重要的指导意义。数据挖掘作为知识发现的重要一环,为解决这一重要问题提供了可能。

1数据挖掘技术概述

数据挖掘是一门思想来源于计算机、统计学、人工智能,可视化技术等的交叉学科,就是从大量数据中发现隐含的模式和知识的过程,具有未知性,有效性和实用性三个特征。数据挖掘技术作为知识发现的一项重要的技术,在电子商务中应用前景广阔。电子商务应用中产生的大量交易和客户等数据,这些数据保存在电子商务网站的服务器上,隐含着有价值的知识。通过对顾客访问过程中系统保留下来的日志文件和Cookie以及海量真实交易数据进行挖掘,利用关联规则和聚类、分类各种技术,可以从中发现知识,最终找出客户群体行为的相似度,进行网页结构有针对性地动态调整,提供个性化界面,开发推荐系统[1],改进Web服务,满足客户的需求。

1.1 数据挖掘的任务

1.1.1关联分析

关联分析也叫做频繁项集处理,是根据给定的支持度和可信度发现数据间的彼此关系,通常用于在已知数据集中发现频繁出现的模式,包括频繁项集、频繁序列模式和频繁子结构,也叫做关联规则。关联规则的挖掘[2]广泛应用于购物篮数据和实务数据等。

1.1.2分类

分类是数据分析中最常用的方法,在数据分析的过程中经常通过分类来归纳数据的特点。分类就是通过分析给定数据集中的数据,根据这些数据集建立相应的分类模型器。然后使用构造的分类模型器对类别未知的待测试集中的数据进行分类,产生它们的分类号,也就是预测出类标号未定数据的类。分类中主要的决策树算法主要用于客户群体的细分、客户流失的预测、大客户特征的识别等方面。

1.1.3聚类

聚类分析技术根据数据之间的相似度量值,在没有任何先验知识点前提下,把有共性的数据自动分成若干类,使得同类数据尽可能相似,不同类数据尽可能不相似。也就是说同一簇内部的点之间距离尽可能短,不同的簇中的点之间的距离尽可能大。聚类是一种无监督的分类方法,分类前不需要任何先验知识就可以自动产生分类号。在电子商务上,可以应用于客户群体的细分、大客户特征的识别,资源聚类[3]等方面。

1.1.4回归分析

回归分析是用于确定变量之间相互依赖关系的一种分析方法,通过这种依赖关系,可以根据相关统计量总体参数做出推测,建立各种分析统计模型进行统计预测。它类似于分类模式,区别在于分类模式的预测值是离散的,回归模式的预测值是连续的。回归分析主要应用于移动通信领域的业务预测等方面。

1.1.5离群点检测

离群点数据检测也叫做异常数据挖掘,通常用于发现行为和模型异常、区别与正常数据的数据。在大多数情况下,为了使得挖掘结果更加准确,这些离群点数据一般作为噪声和异常数据丢弃进行处理,但这些数据在有些领域有着一定的应用价值。例如,某商场把一类商品根据类型集中摆放在的某个区域,一般情况下大多数商品销售良好,但是此类商品却购买量很低,这类商品质量可靠,价格也适中。这种异常现象的出现对于商场来说无疑是很好的值得思考的方面,找出其中原因,有利于商场的决策和管理。

1.1.6序列模式挖掘

序列挖掘通过分析时间数据的前后数据关系,发现这些数据隐含的一些模式,也可以进行序列随时间变化的趋势分析和序列间的相似度量。通过时间序列搜索出重复发生概率比较高的模式,并且可以处理一些特殊的时间范围,如具有周期性的星期、月、季、年等。它主要应用于移动通信领域的客户呼叫模式、业务量预测等方面。

1.2 数据挖掘的过程

数据挖掘是知识发现的重要一个环节,为了得到高质量的数据挖掘结果,在数据挖掘之前必须做好数据的预处理,以提高数据挖掘的算法的速度和结果的精度。

1.2.1数据清洗

高质量的结果建立在高质量的数据基础之上,而收集的数据由于人工和设备等原因,这些数据通常并不一定是高质量的,存在数据不完整、有噪声和不一致的情况,数据的清洗就是去除和光滑噪声数据和离群点数据,填充数据的缺失值,纠正数据的不一致性。数据清洗通过使用模式识别和其他技术,在原始数据转换和移入数据仓库之前来改进原始数据质量。

1.2.2数据集成

来自不同的数据源由于管理系统和数据模型等原因,由于形式不统一数据的不便于进行挖掘。这个过程把从不同数据源获取的数据逐个映射到新的数据结构,用于解决不同的数据源之间的数据不一致和冗余的问题,使不同数据源的数据保持统一的格式和结构。

1.2.3数据归约

通过数据归约可以得到数据集的一种压缩归约表示,这种数据归约的表示比原有数据集小的多,但依旧保持原有完整数据的特性。在这些归约上面挖掘,可以得到和原数据集上十分相近或者几乎相同的结果,但在归约上处理效率更高。

1.2.4数据转化

数据转换从数据归约阶段接受数据,由于集成和归约得到的数据并不是可以挖掘的数据形式,通过数据转换和映射,集成与归约成的数据形式可以挖掘的。为了方便挖掘,数据转换一般采用的方法是数据规范化技术,对数据进行规范处理。

1.2.5数据挖掘

就是利用各种数据挖掘的知识和技术,挖掘数据集中潜在的知识和价值,隐含规则和模式。这当中包含关联规则算法、分类算法和聚类算法等技术。是知识发现的一种重要技术,也是知识发现中最重要的一个环节。

1.2.6模式评估

通过数据挖掘技术得到的知识并不一定是有趣的,有些知识是没有意义或者低价值的。必须对挖掘出来的知识进行评估、优化和筛选,筛选出有意义的知识。在此过程中必须有一套衡量标准对其做出判断,甚至还涉及对结果的修正。

1.2.7知识表示

数据挖掘的结果往往是一些抽象的模式和知识表达,通过可视化、计算机仿真和相关知识表示技术清晰有效地表示数据的特性,把数据挖掘得到的结果和知识给用户表达出来,帮助用户理解挖掘结果。

2数据挖掘技术在电子商务中的应用

电子商务中产生和收集的海量数据,通过数据挖掘可以改进营销策略,发现潜在客户、改进产品开发等,提高企业和产品的竞争力。

2.1 个性化特征及推荐系统

通过了解顾客的个性经验来吸引长期顾客对于在线电子商店来说非常关键。使用分类和聚类对具有相似浏览行为的客户进行归类,并分析类中客户的共同特征,以便帮助电子商务的企业和个人更好地了解客户,提供具有相同兴趣的网页,向客户提供更吸引、更适合的服务。电子商务网站还可以根据实际用户的浏览记录、 Web日志文件来挖掘顾客的浏览行为,从中提取知识,最终找出客户群体行为的相似度, 挖掘用户感兴趣的内容,定期为用户推送相关信息,对网页结构有针对性地动态调整,改变网站中网页的内容和链接结构,为用户提供个性化界面和个人定制服务,满足客户的需求,改进Web服务,提高顾客对网站的兴趣。通常采用动态网页设计技术,Web服务器会自动更新知识数据库,根据用户的信息提供相应的个性化主页,进行智能预测查询[4]。

为顾客提供优质的个性化服务,一方面能使顾客快速地检索到所需商品,另一方面还能拉近企业和用户的距离,更好地为用户进行服务。如淘宝网通过对用户的搜索、点击、收藏、浏览某些商品的频率进行挖掘和收集,把最近浏览过的一些商品和感兴趣的一些相关商品推荐出来,增加电子商务站点的收益率。

2.2 挖掘框架体系

对电子商务网站的浏览信息挖掘研究,可以发现用户最频繁的访问模式和序列,为用户频繁访问页面间建立相关链接, 改进站点结构和布局,提高用户访问便捷性、忠诚度和满意度。数据挖掘技术通过对 Web Log内容的挖掘、日志文件和Cookie来发现该站点上的访问者和客户的浏览模式,挖掘结果可以作为优化页面之间链接和网站拓扑结构的依据,也可以用作开展电子商务活动和进行市场开发的依据,还可以作为网站向用户提供个性服务和构建智能页面的依据。利用路径分析技术判定在一个Web站点中最频繁的访问路径,对相互关联的页面之间建立导航链接,便于用户的访问,可以把十分相关的商品信息放在这些页面中,改进页面布局和优化网站结构的设计,增加网页对客户的吸引力,提高销售量,吸引商家投放广告,增加网站的收益。

而且,通过日志挖掘可以改进网站服务效率,电子商务的网页设计者在设计网页时可以依靠网站运行的实际情况进行设计。找到平衡服务器的负荷,优化传输,缩短用户,减少阻塞等待时间,提高服务质量和系统效率,同时还有助于提高网站的性能和安全性。

2.3 客户浏览分析

在电子商务网站中,用户的浏览和访问记录是非常有价值的数据。运用Web数据挖掘中的序列模式发现技术,通过对网上用户购买数据进行分析和挖掘,发现用户的购买规律,在看似毫无关系的用户购买行为中发现隐含的商品销售关联,改进页面结构和制定相应运营策略,方便交易,有助于企业开拓了新的市场。在对客户访问信息的挖掘中,通过分类发现,对己存在的访问者和一个新的访问者进行分类,识别出这个新客户,根据己经分类的存在客户的一些公共的描述,从而对这个新客户进行正确的描述,发现未来潜在的客户。然后根据客户的类型,就可以对不同客户有针对性地动态地展示感兴趣的页面。

2.4 广告效益评价

在电子商务网站中通过数据挖掘技术对大量商业活动行为进行综合分析,可精确地评价广告手段带来的增长率和产生的效益,并设计出最佳的商品广告、推广组合方案,依据用户的访问模式来确定广告的排放位置,增强广告针对性,提高广告的效益。通过挖掘用户的消费模式可以在不同群体中发掘共同消费喜好,从中加入其感兴趣商品的某些广告,可以大幅提高广告效益和投资回报率。同样,停留在网络页面上观看广告的用户可能会成为未来潜在的新客户,可以让企业投资一部分资金做在线广告吸引新客户。而用户访问该网站时留下的大量及时被存储在数据库中的信息,可以通过数据挖掘技术,挖掘关键信息有效了解用户需求,帮助商家进行个性化的营销策略。而将潜在的客户通过广告的特点模糊分区,分析客户对广告的关注情况,了解客户需求,可提高对某些客户群体更有针对性的服务,并开发出相关产品。

3总结与展望

电子商务中产生的海量数据存在巨大的商业价值,通过一些基本的数据分析结果就可以带来显而易见的好处,而数据挖掘技术在此类产生价值的过程中将扮演着重要的角色。在未来的电子商务发展中,将会有更多数据挖掘需求产生,也必然带来更多研究的出发点。

[参考文献]

[1]冯永平.数据挖掘技术在电子商务中的应用研究[D]. 成都:电子科技大学,2012.

[2]祝文祥.B2C 电子商务中数据挖掘技术的研究与应用[D].合肥:中国科学技术大学,2011.

[3]王钟庄,邓伦丹,石文兵.数据挖掘技术在电子商务推荐系统中的应用研究[J].微电子学与计算机,2007:197-199.

[4]刘丽霞,庄奕琪.电子商务系统的数据挖掘与智能推荐预测的研究[J].计算机科学与工程,2008:92-95.

[责任编辑:D]

Data Mining And Its Applications In Eleetronic Commerce

CHEN Jun-feng

(Department of Mathematies, Longnan Teachers' College,Longnan 742500,China)

Abstract:With the increasingly popularization of the Internet, e-commerce as a new form of business can realize promotion and sale of productst. Data mining technology is an effective data analysis and processing technology, it can find the implicit knowledge through the association rules, classification, clustering, forecast the sales data, which can provide decision-making for the formulation of the marketing strategy and product development, has been widely used in electronic commerce.

Key words:e-commerce;Data mining;clustering;Personal recommendation

[文献标识码][中图分类类]TP274A

[文章编号]1671-5330(2015)02-0040-04

[作者简介]程军锋(1980—)男,甘肃礼县人,讲师,主要从事数据库与数据挖掘.系统建模与仿真研究。

[基金项目]陇南师范高等专科学校校级科研项目(2014LSZK02004)

[收稿日期]2015-01-10

猜你喜欢
数据挖掘聚类电子商务
一种傅里叶域海量数据高速谱聚类方法
改进支持向量机在特征数据挖掘中的智能应用
2025年我国农村电子商务交易额达到2.8万亿元
一种改进K-means聚类的近邻传播最大最小距离算法
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
新丝路电子商务公司办公室
改进K均值聚类算法
软件工程领域中的异常数据挖掘算法
电子商务模式创新的相关研究