人工智能在数据分析中的应用

2021-11-24 09:08孟森玥
科学与生活 2021年18期
关键词:数据分析深度学习人工智能

孟森玥

摘要:数据、算法、计算力是人工智能发展必备三要素,其中以数据最为关键。文章以数据分析为切入点,阐述了人工智能与数据分析的概念、组成,论述了人工智能在数据分析中的应用情况。

关键词:人工智能;数据分析;深度学习

前言:在大数据、物联网、云计算、互联网等信息技术蓬勃发展过程中,图形处理器、泛在感知数据计算平台获得了良好的发展机遇,为以深度神经网络、知识问答、数据分析算法、图像分类等为代表的人工智能技术发展提供了充足的驱动力。近几年,人工智能技术大幅跨越了科学与应用之间的“技术鸿沟”,在数据分析方面也实现了从“不能用、不好用”到“可以用”的技术突破。基于此,探究人工智能在数据分析中的应用非常必要。

一、人工智能与数据分析

1、人工智能

在计算机科学领域,人工智能又可称之为机器智能,即以机器为展示载体的智能,是一种与人类、动物展示的自然智能相对的概念[1]。在通俗意义上,人工智能特指用于描述模仿人类思维或与人类思维相关联的“认知”功能的机器,比如“学习”、“解决问题”等。从组成上来看,人工智能可以划分为人类启发型、分析型、人性化人工智能三种不同类型。从研究问题上来看,人工智能领域不仅涉足了推理、学习、感知能力,而且包括数据统计方法、规划、只是表示以及智能符号计算能力。

2、数据分析

数据分析是一个清理、检查、转换、构建数据模型的过程,旨在发现富有价值的信息、获得结论、助力决策下达。数据分析领域涵盖了多种名称下的多种技术,可以在科学、商业、社会领域发挥功效。比如,在商业领域,利用数据分析可以提高决策下达科学性,助力企业有效运营。

在通俗意义上,数据分析主要是获得原始数据并将原始数据进行转换,形成对用户决策富有价值信息的过程。包括数据要求、数据收集、数据处理、数据清理、探索性数据分析、建模和算法、数据产品、通讯几个环节。

二、人工智能在数据分析中的应用措施

1、基于数据和算法的系统

人工智能开启了一次数据再生产的革命,其不仅可以在短时间内扁平化行业鸿沟,代替数据分析行业经验规则,而且会产生大量新的数据分析经验,创造出更多新的数据价值。基于数据和算法的系统是人工智能在数据分析领域主要用工具,相较于常规静态策略+人工干预手段而言,基于数据和算法的系统是以数据+系统的方法为基础,抛弃数据分析经验+程序的方式。比如,提出于18世纪的贝叶斯算法就实现了对客观事物规律化数据的精确数学推理演绎。通过将任何行业数据所携带特征进行工程处理,转化为数学问题后进行分析解决[2]。再如,谷歌团队利用隐马尔可夫算法,进行人类语言模型学习,构建了以隐马尔可夫算法为基础的语音识别模型。这一语音识别模型是一个具有代表性的数据+算法替代规则,再可以通过分析文本前后分布逻辑概率,结合大规模文章学习经验,实现对语言知识以及行为运动姿态的自动学习。

基于算法和数据的人工智能系统强调数据深入浅出分析。以贝叶斯算法应用为例,已知在200个人有40个人得了流感,而90%患流感的患者可以检测出阳性,9.0%未患流感的人也可以检测出阳性。此时,在条件、答案已知的情況下,就可以计算条件概率P(结果阳性|健康人)=9.0%,此时,贝叶斯公式就可以表示为P(得流感|结果阳性),结合条件在结果为阳性的人的范围内进行概率分析,即流感患者阳性人数与结果阳性总人数的比值。其中流感患者阳性人为:200×40%×90%;而结果阳性总人数为:(0.4×0.9+1.6×0.09)×200。

2、基于深度学习的数据分析

机器学习是实现人工智能的一种方法和一个途径,其强调算法从数据中开展学习,在分析数据过程中寻找一种可拟合相关数据的模型,达到使用相关模型对未知数据进行预先估测的目的。深度学习则是在2012年后数据量急剧增加、计算能力迅速提升背景下出现的一种机器学习新算法,其使用的方法类似于机器学习,但更为注重通过深度神经我昂立进行数据特征的分析、学习、表达。

以深度学习在时空大数据(图1)分析中的应用为例,时空大数据是指同时具有时间属性、空间属性的数据,比如,GPS定位数据、滴滴网约车订单数据、人口密度数据等。由于时空大数据在时间、空间上均具有关联,且存在平移动态变化特征,数据源影响因素多种多样,对于数据源整合、分析提出了较大的挑战,传统图像分类、机器翻译方法并无法实现时空大数据分析。而利用人工智能领域的深度学习工具,可以抓住时空的关联性,将多数据源不同质因子进行有机整合,拓展分析,解决数据缺失、噪声过大对数据分析的不利影响。比如,在分析一个区域未来一段时间内网约车叫车订单不会被满足的极限问题时,可以利用深度学习的数据特征提取能力,将订单数据、天气数据、日期数据、位置数据进行整合,形成一个深度学习框架,在框架内具有多个模块,每一个模块负责处理不同类型的数据[3]。

如图2所示,Environment part负责处理环境信息,而order part则负责进行订单数据处理,Identify part负责处理时间数据,并利用一个residual link(残差连接)将多模块整合,最终实现端到端数据源信息预测分析。

总结:

综上所述,人工智能是多个学科的知识融合,而数据分析是人工智能的主要应用领域,只有切实将人工智能应用到数据分析领域,才可以保证人工智能的可持续发展。因此,在利用人工神经网络、基于概率学的方法、搜索和数学优化等人工智能工具进行数据分析的基础上,应从人与机器之间数据交互入手,进行人工智能的恰当应用,以便在短时间内扁平化数据分析领域的壁垒,构建新的人工智能作用发挥链,为智能文明新纪元的开启奠定基础。

参考文献:

[1]李国良,周煊赫.面向AI的数据管理技术综述[J].软件学报,2021(01):21-40.

[2]陈翠娟.改进的多项朴素贝叶斯分类算法和Python实现[J].景德镇学院学报,2021(03):92-95.

[3]孔繁钰,周愉峰,陈纲.基于时空特征挖掘的交通流量预测方法[J].计算机科学,2019(07):322-326.

猜你喜欢
数据分析深度学习人工智能
2019:人工智能
人工智能与就业
数读人工智能
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
下一幕,人工智能!