基于物联网的图书馆用户行为大数据分析模型探究

2019-10-08 06:27孙龙杰俞凯君
软件 2019年6期
关键词:用户画像支持向量机数据挖掘

孙龙杰 俞凯君

摘  要: 大数据人工智能时代实时产生的大量图书馆用户行为数据需要更高效更科学的分析技术帮助图书馆提升个性化服务水平和质量,同时日益普及的校园物联网系统需要更加积极的网络安全防范措施,主动检测出网络不可信的异常行为并反馈警告用户,提升安全意识。针对上述需求,本文在国内外权威数据库输入用户行为分析等关键词查找相关文献,根据文献分析法综合比较剔除筛选出55篇核心技术文献进行细读研究,梳理了技术发展历程,明确了用户行为个性分析和可信性分析的核心技术和方法并做了重点拓展性研究,根据文献研究成果结合图书馆当前实际发展的需要,探究出一套基于传统数据挖掘和分类学习的用户行为大数据分析模型,该模型将用户个性分析和异常行为的检测高度有机结合能有效解决上述两大难题。

关键词: 数据挖掘;监督学习;用户画像;支持向量机

中图分类号: TP393.02    文献标识码: A    DOI:10.3969/j.issn.1003-6970.2019.06.025

本文著录格式:孙龙杰,俞凯君. 基于物联网的图书馆用户行为大数据分析模型探究[J]. 软件,2019,40(6):113118

【Abstract】: A large number of library user behavior data generated in real time in the era of big data artificial intelligence requires more efficient and scientific analysis technology to help libraries improve the level and quality of personalized services, while the increasingly popular campus Internet of Things system needs to be more Active network security precautions, proactively detect unreliable abnormal behavior of the network and feedback users to improve security awareness. In view of the above requirements, this paper searches for relevant literatures by inputting user behavior analysis and other keywords in authoritative databases at home and abroad. According to the literature analysis method, 55 core technical documents are selected and selected for detailed study, and the technical development process is sorted out. The core technologies and methods of user behavioral personality analysis and credibility analysis are clarified and key extended research is carried out.Based on the research results of the literature and the needs of the current real development of the library, a set of traditional data mining is explored. And the user behavior big data analysis model of classification learning, which combines the user personality analysis and the detection of abnormal behaviors to effectively solve the above two problems.

【Key words】: Data mining; Supervised learning; User portrait; SVM

0  引言

大数据物联网时代下,信息交互手段更加丰富便捷、个性化趋势日益明显,笔记本、智能手机、IPAD、Kindle等移动终端设备早已成为人们阅读的主要工具,用户对知识信息的获取、认知、利用、交流的主要方式逐步转移到各大互联网平台上,随着人工智能技术的不断发展,图书馆各种智慧交互设备的不断涌现,每天图书馆用户在使用服务产品时需进行频繁的操作和数据传送,產生大量的用户行为日志数据不断传送到服务器存储后台中形成海量数据。这样一方面造成现有网络数据挖掘技术难以及时分析处理这些更新迅速内容丰富的数据导致对用户行为分析的滞后缺失,难以及时推出具有个性丰富的服务产品;另一方面实时频繁的用户登录、浏览、下载、发布等操作行为给用户自身账户信息等带来安全隐患,也对图书馆数字资源网络安全提出更高要求,需要及时检测出网络异常有害行为,避免由此带来的损失。本文通过检索知网、万方、维普、IEEE Springer Link等国内外权威数据库,输入用户行为关键技术等关键词,搜索出近百篇文献,研究细读后运用文献分析法综合比对主题相似、逻辑关联的文献,从中剔除陈旧、重复筛选出55篇核心技术文献再仔细归类、整理,梳理了用户行为数据分析技术发展历程,明确了用户行为个性分析和可信性分析的核心技术,对照图书馆用户行为特征,最终选取7种核心数据分析技术作为构建本文用户行为大数据分析模型的骨架。文献具体研究情况见表1。

1  数据分析技术演变

1.1  数理统计分析

国内在上世纪90年代初就已有通过过借阅记录、问卷调查等方式进行数理统计分析用户行为的论文[1]发表,随着21世纪初互联网技术的迅猛发展,基于数据统计原理开发出的网站统计和定制软件业逐步开始商业化使用[2-4],如eXTReMeTracking提供URL实时跟踪服务及用户网站浏览各项统计信息,WebSiteTrafficreport以email的形式发送用户访问流量统计结果,MiniTab软件统计分析用户使用习惯调查问卷等,虽然预设固化程序仅提供部分统计学参量数据,对预测用户行为的范围和准确度有限,但对于进入web2.0时代的数字图书馆来说具有重要意义,深度的数据挖掘分析研究开始逐步延伸到图书馆各项业务中,如李盼池[5]根据聚类算法分析用户借阅信息,魏育辉[6]等人使用关联规则挖掘分析图书馆流通数据,温嵘生[7]等人对OPAC数据利用SQL、数据仓库技术进行关联挖掘等。

1.2  数据挖掘

近年来随着物联网的发展,图书馆相关业务数据也呈现逐年翻倍递增的趋势,用户行为信息数据程现多样性和复杂性特征,也给数据挖掘技术在图书馆的应用研究提供了绝佳机会。对于用户日常浏览图书馆网页、数字资源查询、下载文献资料、流通借阅等行为均有web日志记录数据,使用python等工具高效获得可靠丰富详实的用户行为原始数据;通过聚类、关联、决策树、时间序列等主流数据挖掘分析方法,能较为准确地把握图书馆用户基本使用概况,如赵卫军[8]对web和文本数据挖掘对高校数字图书馆应用领域的影响和价值,张金镯[9]探讨了决策树算法在用户活跃度的应用,熊拥军[10]等利用关联挖掘技术构建个性化推送服务模型,张炜[11]等通过MAR-FP算法挖掘OPAC检索中用户行为数据探究用户规律性知识需求,王伟[12]则基web和书目挖掘的基础探讨了用户行为分析和偏好模型所依赖的主要数据挖掘模式等等。下面就以上主要数据挖掘的技术原理和思路做一下重点介绍。

聚类分析[13]就是把一个集合中各元素间按照某种相似度分组后,形成各自聚集的类,类的内部元素之间的差异距离较小(即元素之间更加相似),分析各类的统计特性,在数据挖掘中找到感兴趣的分组结果。聚类更为严格的数学描述如下:被研究的样本集为K,类M定义为K的一个非空子集,即M K,且M K,满足以下2个条件的不同类 (i=1,2,3,4,…)就是聚类:

由条件一可知,每个样本必定属于聚类中某一个类,条件二可知每个样本属于不超过1个类。聚类是数据挖掘中非常重要的组成部分,也是人工智能、模式识别领域中机器学习[14]的重要技术,属于无监督学习的一种。聚类本身并不是一个特定的算法,而是一个普遍性的任务。有许多不同聚类算法可以用来完成这个任务,主要的聚类算法有6大类分别是基于分割的算法、基于层次的、基于密度的、基于网格的、基于模型的[15]。但这些算法互相之间关于什么样的数据应当组成一个类,以及如何找到这些元素这两个问题有着巨大的差异。国内外专家学者经过长期不懈的努力不断改善基于层次、密度等主要的聚类算法的鲁棒性:Karypis[16]等人针对基于层次的聚类算法扩展性差的问题在总结以往的K-means, PAM, CLARANS, DBSCAN, CURE, and ROCK等算法的不足综合考虑了互连性、近似度及内部特征提出动态Chameleon算法提高了聚类速度,改善了聚类质量;裴继法等人[17]针对基于密度的聚类划分提出利用样本分布密度函数作为FCM聚类算法初始隶属度矩阵,从而改善了FCM聚类算法的鲁棒性、收敛时间和分类精度。

关联分析又称为关联挖掘,用于发现大量数据项集中不同项之间的相关或关联联系的过程,这些联系可以有两种形式,一是频繁项集,指的出现频率较高的物品或者项目的集合,另一种是关联规则,指的是两种物品或者项目之间存在着很强烈的关系,关联分析的目标是找出强关联规则,支持度和置信度是判定一个关联分析方法是否成功的重要依据,现有的基于关联规则的挖掘算法绝大部分都需要使用支持度和置信度来过滤掉关联效果或者说可靠度低的方法和模式,主要有6种关联算法:Apriori算法[18]及其优化算法、多维关联挖掘、多层次关联挖掘、基于约束的关联挖掘、基于统计的关联、非结构化复杂类型关联[19]。

传统的关联挖掘的算法也如聚类一样自1993年Agrawal 等人针对购物篮分析问题而提出Apriori算法后一直受到国内外数据挖掘研究者的关注和改进,像贺超波[20]等人利用粗糙集的特征属性约简算法进行属性约简,然后在构建约简决策表的基础上应用改进的Apriori算法进行关联规则挖掘;而JHan等[21]人提出的FP-growth的方法也是一种典型的优化算法:针对所有频繁集进行压缩形成频繁模式树(FP-tree)再将其分化为一些与长度为为1的频繁集相关的条件库进行挖掘,同时保留关联信息,此方法在长期的实验和应用中,体现了对长度不同的规则都能运行良好、效率高的特点。上述传统的算法多为同一属性之间的单维关联关系,扫描挖掘数据需要多遍,且产生和验证候选频繁项集的操作实现复杂难以实现对多维关联规则的挖掘,彭银香等[22]人根据免疫记忆特性提出基于免疫算法的多维关联规则挖掘算法把挖掘的關联规则存入记忆库,加快了关联规则的挖掘速度能快速、有效地进行全局优化搜索;吴少莹等[23]对基于数据仓库和 OLAP的多维数据分析法和多维关联规则挖掘算法进行了相关研究,实现在一定范围内的多维关联规则研究、满足人们一定范围内的对多维属性的要求。

时间序列[24]是指将某一统计指标的数据值按其发生的时间先后顺序排列而成的序列,其典型的特点是数据规模大、数据维度高、含有噪音。时间序列分析技术己经广泛应用于各行各业的发展中,技术十分成熟。时间序列的分析技术目前按阶段发展分为两类,第一类早期基于数理统计的时间序列分析方法,该分析方法侧重于统计分析离散指标的随机过程。第二类为本文采用的基于数据挖掘的时间序列分析技术,是数据挖掘研究的一个重要领域,主要研究数据类型是时间序列的数据,如金融分析、环境分析、交通分析、计算机仿真等[25-28],研究的热点主要集中在时间序列的近似表示、相似性度量、分类、聚类、模式挖掘、异常检测等[29-34]。

1.3  监督学习分析

以上大数据时代下的数据挖掘分析技术给予了图书馆各项业务有力的支撑,实现了数字图书馆的目标和要求,但随着人脸识别、语音识别等智能化产品的不断涌现,传统数据挖掘技术需要增添新的活力,才能完成图书馆智慧服务的自我革命。

2017年《国务院新一代人工智能发展规划》[35]发布,标志着我国进入第二代人工智能发展时期,这一阶段由个体智能到群体智能、由可解释的机器学习到广泛的机器学习、由智能机器到人机协同,因此借助该机遇智慧图书馆的各项目标也将逐步实现;在人工智能时代下,图书馆借助于人脸识别、语音识别、机器翻译等交互设备将主动获取用户操作行为实时产生的浏览数据、借阅数据、位置数据等信息并传输至大数据处理中心,而人工智能的机器学习算法会对这些实时海量数据的处理和分析更加全面和丰富,并通过智能反馈机制完成个性化服务,形成以用户行为智慧分析为导向的图书馆服务新模式,更能精准地把握用户行为的规律与特点,为各项业务提供准确依据。机器学习算法是人工智能应用的核心领域,机器学习主要分为三类:监督学习,非监督学习,半监督学习。人工智能发展阶段对图书馆用户行为大数据的分析需要增添监督学习[36]分类预测实现达到基于用户行为分析向用户推荐个性化服务的目的,主要的分类算法有朴素贝叶斯、支持向量机、集成学习等,下面我们将逐一介绍。

在数据挖掘和机器学习领域中,朴素贝叶斯(Bayes)分析是一种运用先验的概率进行分类和预测的算法[37]。它基于贝叶斯定理,计算一个未知类别的数据样本属于各类别的可能性大小,选择其中可能性最大的作为最终类别。朴素贝叶斯分类要求特征属性必须有条件独立或基本独立,此分类工作首先是在训练集的数据样本中计算每个数据特征对应的各个类别的条件概率和个类别出现的频率,然后对测试集的数据特征采用贝叶斯定理计算其各类别出现的可能性;若不独立则需由一个有向无环图(DAG)和一个条件概率构成的贝叶斯网络进行训练来解决。朴素贝叶斯分析主要步骤可分为:1. 划分数据特征属性及属性类别;2. 计算训练数据样本中各类别特征属性的条件概率估计;3. 若该特征独立,则计算测试数据在该类别下的条件概率,取得最大值作为测试数据的类别。

支持向量机(SVM,Support Vector Machine)[38]是根据统计学VC理论和结构风险最小化准则基础上提出的一种新的学习方法。SVM 方法是通过一个非线性映射K,把训练数据样本低维空间映射到一个高维特征空间中(Hilbert空间),使得原本的线性不可分问题转化为在高维空间中的线性可分问题。但一般升维运算庞大复杂,易造成“维数灾难”,所以SVM中为解决上述问题特引入核函数法。简单来说对于只用到内积运算的SVM来说,设x,z∈X,X属于低维空间,非线性函数 实现输入低维空间X到高维空间F的映射。根据核函数技术[39]有:

通过上述变换就可以找到一个线性超平面[40]用来进行分类分析任务,所以核函数是SVM最为重要的部分。这种方法的引入是为了处理非线性、高维数、局部极小点等各种问题,提高了模型的泛化能力。较好地解决了非线性、高维数、局部极小点等问题。在机器监督学习模型中,支持向量机与神经网络[41]都是非常实用的,可以分析数据、识别模式,进行高效地分類和回归分析。

面对复杂的用户个性化行为分析,往往一种分类方法并不能满足需求需要融合各种分类器的学习能力形成优势互补,减少误差的更强分类器,因此引入了集成学习在个性化推荐应用中的相关理论[42]。集成学习的基本思路就是将多个学习算法连续调用,获得更强的学习能力,整合多个学习机制进而整合这些学习能力使其达到处理同一个问题的能力。但到目前为止集成学习还没有一致的分类,多数学者通过各自研究的成果倾向于归为4大类:

1. Bagging:作为第一个最简单有效的集成学习法,是模型平均的一种特殊情形,应用范围广,几乎涵盖了所有分类和回归问题,从早期的分类扩展至决策树模型,是目前对不稳定的非线性模型唯一有用的方法。

2. Boosting:作为目前应用最为广泛的集成学习法,通过在同样的训练数据集上改变权值分布来反复迭代形成最终的模型,其中目前最为流行的AdaBoost法在此基础上还可以任意组合多个基分类器,本文探究的分类预测中即使用该种方法。

3. Stacked Generalization:是一种有思想的方法,不同种类的基学习器非线性组合起来。虽然目前为止还未被广泛接受但随着研究的深入,会不断挖掘出潜力。

4. Random Subspace Method:训练数据集采用非传统的随机选择的输入子空间,如训练数据集的特征空间,输出采用多数投票的方式进行组合。

协同过滤算法[43]的主要功能为预测和推荐。而基于用户行为的协同过滤个性化推荐算法主要采用了三大步骤近邻查询、匹配相似、分类推荐,思路如下:首先对以上分类器得出的用户行为的大量历史特征数据进行分析,从而勾勒出各个用户行为的使用画像,针对每个用户独特的喜好,推送用户喜好相似或一致的产品服务信息。具体实现:

1. 收集尽可能多用户的基本背景信息、浏览习惯信息等

2. 匹配相似习惯或背景信息的用户、寻找相似或一致的产品服务,划分不同类别;

3. 针对不同类别用户,推送用户喜好的产品服务。

2  用户行为大数据分析模型

上文对大数据时代下图书馆用户实时产生的海量数据提供了多种实用高效的分析技术,可以分析用户行为个性化。

2.1  用户行为个性化分析

图书馆用户行为个性化分析是基于图书馆内人机交互日志记录、网页浏览记录、数字资源下载量、平台互动信息等,通过对以上行为数据的采集并进行监督学习分析预测用户画像,具体为性别信息可根据用户对图书馆各模块的响应时间的不同构造两个训练数据样本——粗粒度训练数据和细粒度训练数据[51]进行交叉验证训练二分类SVM分类器获得;以用户浏览兴趣、阅读兴趣等细粒度为数据特征的训练数据,将相邻矩阵R[52]与用户关联并统计用户分布概率可作为贝叶斯分类器的先验概率,计算出用户和类别的相似度来选择用户邻居和类别邻居,就可预测以价格为导向的终端级别;通过对用户发布在贴吧、留言板、聊天平台上的图像特征和文字特征提取构建训练数据,采用支持向量机和梯度提升[53]的集成学习分类器就可以分析预测用户发布习惯;通过每天用户习惯发布信息的时间累积发布函数F[54],按照时间序列数据分析设定不同阈值,划分活跃等级;以上用户性别、终端级别、平台发布习惯、兴趣爱好、活跃度、学科背景等图书馆用户画像[55]的基本元素逐渐清晰明了,最后协同过滤构成完整用户行为画像,推送用户个性化服务产品,如推荐用户喜爱的图书、讲座、活动等信息,完成用户行为大数据分析。

2.2  用户行为可信性数据分析

智慧图书馆本身无时无刻不处于互联网中,不可避免地会遭受各种网络安全问题,交互设备各种应用操作频繁、个人账户设置的疏忽、软件更新的滞后,极易造成用户信息的丢失和篡改[44],导致账户被他人盗用并快速传播各种网络病毒、反动、暴力、黄色等异常行为;如何防微杜渐及时检测发现识别不可信的用户行为成为本文研究的另一重点。

目前网络安全厂商用于终端的反病毒软件、防火墙、加密软件的技术基本都是基于已有的病毒签名数据库和扫描引擎进行数据对比查验安全[45-46],这里我们将这些已有的病毒特征数据库和用户异常行为数据特征统一存放一起称为先验知识库,虽然这样可以过滤大部分已知异常行为但对于实时产生的各种异常行为就无能为力,现有知识库破解病毒更新的速度远不及最新的变种传播方式;针对上述问题国内外学者进行了大量新技术的尝试并取得了不俗的进展如Rieck等人[47]提出使用机器学习分类算法对恶意行为进行自动分析不仅能检测已有的特征类别还可以形成新的类别增添先验知识库中,Xin等人[48]根据聚类分析等传统数据挖掘方法,对病毒样本进行特征提取获取其特征,对大量的病毒样本实现了有效分类不断丰富先验知识库。Burguera等人[49]提出基于安卓平台的云检测方式和Rajab等  人[50]提出浏览器内置病毒检测系统的分析网络下载文件的方法,此方法意义在于大数据时代下的图书馆大数据分析中心可以实时监控图书馆用户操作行为,应将将病毒防范检测工作纳入日常管理中并及时反馈检测结。这样一方面可以有效克服由于用户终端计算和存储资源有限而导致的检测滞后;另一方面充分发挥传统数据挖掘和监督学习分析技术的功效,不仅可以推送用户个性产品服务信息,也能及时发出网络安全警告,真正体现出智慧图书馆的服务特色,提供良好的用户体验。下面将重点介绍图书馆用户行为大数据分析模型。

首先对实时产生的用户行为所有数据包在大数据中心网关处进行汇集,通过初步的数据预处理等步骤后开始进行由先验知识库为依据的数据检测,若判定正常则继续下一步训练分类学习技术的数据集;若不正常则对其行为日志进行数据挖掘,这里主要以聚类分析为主,配合多维关联规则和时间序列分析加速进行大规模数据的深度全局优化搜索,若确认为新异常行为则提取特征后添加先验库知识中并对该用户发出警告,若无法确认再进行二次检测;同理在进行分类预测用户个性分析时也可以发挥机器学习对病毒变种的检测能力,将新的特征类别添加至先验知识库中,剩下的正常行为通过一系列分分析预测形成用户个性信息,经过协同过滤后勾勒出用户画像,最后将个性推荐信息发送至用户终端完成整个用户行为分析过程。具体流程图如下:

3  结语

目前图书馆正在大数据人工智能技术发展的牵引下逐步转型为智慧图书馆,借助新型的智能交互设备和分析技术让许多梦寐以求的图书馆服务理念得以真正實现,本文从用户行为分析的角度出发,研究相关文献技术得出兼具网络安全检测和用户个性行为分析双重功效的大数据分析模型,除了让图书馆能更加及时准确地向用户推送个性化服务外,还时刻维护着用户的安全隐私和图书馆网络安全,将有害行为产生的影响降至最低。

参考文献

[1] Leon A—Jakobovits, Diane Nahl—Jakobovits, 陆冰. 利用图书馆: 用户行为分析[J].豫西农专学报, 1990(3): 131- 134.

[2] JW Hsieh, LW Huang, YS Huang. Multiple-Person Tracking System for Content Analysis [J]. Springer Berlin Heidelberg, 2001, 2195(4): 897-902.

[3] P Alpar, M Porembski, S Pickerodt. Measuring the Efficiency of Web Site Traffic Generation [J]. International Journal of Electronic Commerce, 2001, 6(1): 53-74.

[4] D Farris. Design of Experiments With MiNITAB[J]. Quality Progress, 2005, 38(5): 205-205.

[5] 李盼池. 基于核聚类算法的高校图书借阅信息分析方法[J]. 现代情报, 2003, 23(9): 186-188.

[6] 魏育群, 潘洁. 图书流动数据的关联挖掘量化分析方法[J]. 现化情报, 2005, 25(11): 108-110.

[7] 温嵘生, 邱春兰 . 基于 OPAC 信息库图书借阅数据关联挖掘分析与应用[J]. 情报杂志, 2007 , (7): 61-63.

[8] 赵卫军. 数据挖掘技术在高校图书馆中的应用[J]. 图书馆论坛, 2007, 27(4): 126-128.

[9] 张金镯. 基于数据挖掘的图书馆活跃读者研究[J]. 现代图书情报技术, 2008, 167(7): 96-99.

[10] 熊拥军, 陈春颖.基于关联挖掘技术的数字图书馆个性化推送服务[J]. 图书情报工作, 2010, 54(1): 125-129.

[11] 张炜, 洪霞. 基于 OPAC读者行为的知识发现研究[J]. 图书馆论坛, 2011, 31(1): 17-19, 49.

[12] 王伟. 基于数据挖掘的图书馆用户行为分析与偏好研究[J]. 情报科学, 2012(3): 391-394.

[13] AK Jain, MN Murty, PJ Flynn. Data clustering: a review[J]. Acm Computing Surveys, 1999 , 31(3): 264-323.

[14] 李斌, 李蓉, 周蕾. 分布式 K-means 聚类算法研究与实现[J]. 软件, 2018, 39(01): 35-38.

[15] 蒲杰方, 卢荧玲. 基于聚类算法和神经网络的客户分类模型构建[J]. 软件, 2018, 39(4): 130-136.

[16] G Karypis, EH Han, V Kumar. CHAMELEON A hierarchical clustering algorithm using dynamic modeling[J]. Computer , 2008, 32 (8): 68-75.

[17] 裴继法, 谢维信. 聚类的密度函数方法[J]. 西安电子科技大学学报, 1997 (4): 463-467.

[18] R. Agrawal, T. Imielinski, A. Swami. Mining Association  Rules Between Sets of Items in Large Databases. Proc. 1993 ACM SIGMOD  IntConf. Management of Data. Washington, D. C, 1993: 207-216.

[19] 李强. 数据挖掘中关联分析算法研究[D]. 哈尔滨: 哈尔滨工程大学. 2010.

[20] 贺超波, 陈启买. 基于粗糙集的关联规则挖掘方法[J]. 计算机应用, 2010, 30(1): 25-28.

[21] J Han, J Pei , Y Yin. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record, 2000, 29 (2): 1-12.

[22] 彭银香, 何小东, 朱志勇. 基于免疫算法的多维关联规则挖掘方法[J]. 微计算机信息. 2007, 23(3): 171-173.

[23] 吴少莹. 基多维关联规则挖掘算法研究[D]. 天津理工大学, 2008.

[24] 龙婧, 车文刚, 权鹏宇, 等. 金融时间序列 K 线形态的 Motif 模式挖掘研究[J]. 软件, 2018, 39(2): 147-151.

[25] 陆珩瑱, 徐立平. 基于时间序列频域分析的期货市场周期研究[J]. 统计与决策》, 2011 (6): 146-147.

[26] 潘磊, 沙斐. 非线性时间序列门限自回归模型在环境空气质量预报中的应用[J]. 上海环境科学. 2007(5): 212-214.

[27] 许伦辉, 唐德華, 邹娜, 夏新海. 基于非线性时间序列分析的短时交通流特性分析[J]. 重庆交通大学学报(自然科学版). 2010, 29(1): 110-113.

[28] 邵晨曦, 童松桃, 杨明, 王子才. 非线性时间序列高性能仿真算法研究[J]. 系统仿真学报. 2009, 21(15): 4598-4602.

[29] 龚薇, 肖辉, 曾海泉. 基于变化点的时间序列近似表示[J]. 计算机工程与应用, 2006 , 42(10): 169-171.

[30] 陈海燕, 刘晨晖, 孙博. 时间序列数据挖掘的相似性度量综述[J]. 控制与决策. 2017, 32(1): 1-11.

[31] 杨一鸣, 潘嵘, 潘嘉林, 杨强, 李磊. 时间序列分类问题的算法比较[J]. 计算机学报. 2007, 30(8): 1259-1266.

[32] 谢福鼎, 赵晓慧, 嵇敏, 平宇. 一种时间序列动态聚类的算法[J]. 计算机应用研究. 2012, 29(10): 3677-3680.

[33] 张可佳, 李春生, 姜海英, 赵森. 时间序列下模式挖掘模型设计[J]. 计算机工程与应用, 2015 , 51 (19): 146-151.

[34] 李海林, 郭崇慧, 杨丽彬. 基于时间序列数据挖掘的故障检测方法[J]. 数据采集与处理. 2016, 31(4): 782-790.

[35] 中华人民共和国国务院. 新一代人工智能发展计划[R/OL]. [2018-03-15]. http://www.gov.cn/zhengce/content/2017-07 /20/content_5211996.htm.

[36] 沈敏, 杨新涯, 王楷. 基于机器学习的高校图书馆用户偏好检索系统研究[J]. 图书情报工作, 2015(11): 143-148.

[37] 文志诚, 曹春丽, 周浩. 基于朴素贝叶斯分类器的网络安全态势评估方法[J]. 计算机应用, 2015, 35(8): 2164-2168.

[38] 郭明玮, 赵宇宙, 项俊平 , 张陈斌 , 陈宗海. 基于支持向量机的目标检测算法综述[J]. 控制与决策, 2014(2): 193-200.

[39] 杨钟瑾. 核函数支持向量机[J]. 计算机工程与应用, 2008, 44(33): 1-6.

[40] Z. R. Gabidullina. A Linear Separability Criterion for Sets of Euclidean Space[J]. Journal of Optimization Theory and Applications. 2013, 158(1): 145-171.

[41] 沈正维, 李秋菊. 支持向量机与神经网络的关系研究[J]. 生物数学学报, 2006 , 21(2): 204-208.

[42] 方育柯. 集成学习理论研究及其在个性化推荐中的应用[D]. 四川: 电子科技大学, 2011.

[43] 张峻玮, 杨洲. 一种基于改进的层次聚类的协同过滤用户推荐算法研究[J]. 计算机科学, 2014, 41(12): 176-178.

[44] 苏啸宇. 物联网在维护公共安全中的作用[J]. 软件, 2016, 37(3): 127-130.

[45] 金海峰. 基于数据挖掘的移动互联网数据包安全检测技术研究[D]. 北京: 北京邮电大学, 2016.

[46] 冯倩. 基于服务器端的 XSS 攻击防御[J]. 软件, 2018, 39(01): 45-49.

[47] K Rieck, P Trinius, C Willems. Automatic analysis of malware behavior using machine learning[J]. Journal of Computer Security, 2011, 19(4): 639-668.

[48] H Xin , S Bhatkar , K Griffin , GS Kang: scalable malware clustering based on static features[C]//Usenix Conference on Technical Conference , 2013: 187-198.

[49] I Burguera, U Zurutuza, S Nadjm-Tehrani: Crowdroid: behavior- based malware detection system for Android [C]//Acm Workshop on Security & Privacy in Smartphones, 2011: 15-26.

[50] M Rajab, L Ballard, N Lutz. CAMP: Content-agnostic malware protection[C]//Annual Network and Distributed System Security Symposium, NDSS(February 2013). 2013.

[51] 史大偉, 袁天伟. 一种粗细粒度结合的动态污点分析方法[J]. 计算机工程, 2014 , 40(3): 12-17.

[52] 贺毅朝, 田海燕, 张新禄, 高锁刚. 基于相邻矩阵快速构建虚拟主干网的近似算法[J]. 计算机科学, 2012, 39(3): 83-87.

[53] 龚越, 罗小芹, 王殿海, 杨少辉. 基于梯度提升回归树的城市道路行程时间预测[D]. 浙江:浙江大学学报(工学版), 2018(3).

[54] 王亦雷. 移动互联网中数据服务的关键技术研究[D]. 四川: 电子科技大学, 2018.

[55] 王庆, 赵发珍. 基于"用户画像"的图书馆资源推荐模式设计与分析[J]. 现代情报, 2018(3).

猜你喜欢
用户画像支持向量机数据挖掘
基于并行计算的大数据挖掘在电网中的应用
基于支持向量机的金融数据分析研究
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究