大规模数据处理及集群性能监控与优化

2016-10-18 07:56王大恒战勇杰
中国新通信 2016年16期
关键词:端口数据处理集群

王大恒 战勇杰

【摘要】 近年来,我国信息化发展步伐逐渐加快,网络用户急速上升。网络用户的增加,为更多的电子商业带来新的机遇。通过对数据的有效分析和利用,进一步促进我过经济发展。由于数据的膨胀,小型服务器显然不能完成这项工作,因此,以集群为单位的处理方式被得到广泛的应有。但是,通过终端采集,数据被不间断的传入集群,速度过快时更容易造成集群超负荷工作,而不能就是对数据进行处理;而速度过慢时就会导致集群的作用不能充分的被发挥出来。因此本文对集群性能的监控和优化进行了详细的阐述,通过优化对集群进行改善。

【关键字】 大规模数据出来 集群 监控 优化

一、需求分析

1.1大规模数据处理需求

大规模数据处理具有一定的优势,并可以实现以下功能:集群部署、数据导入、数据过滤处理。集群部署:即将Hadoop、Spark、和HBase集群分别部署在不同的服务器上。利用其中一台服务器作为主节点,可以对管理文件进行命名并对客户端文件进行相关的访问,同时起到总调度的任务。集群一般是由一台服务器的主节点和多台子节点服务器组成,但是收到实验室的限制,因此只能选择两样服务器进行操作,但是操作原理依然符合上述操作流程,两台服务器起到的作用也不同。在集群配置中,首先需要准备的工作就是对网络环境进行设置和对运行环境进行设置。

1.2集群监控需求

集群监控技术可以更好的满足对各个节点数据的收集,利用集群监控技术可以将CPU的利用率及系统负载情况进行及时的显示。最主要的是可以实现数据的实时更新,在更新的过程中主要涉及以下内容:数据获取的方法、数据传送给客户端、将数据转化为更直观的曲线数据。

二、设计优化

1、数据处理设计。在原始数据中每一行都包含呼叫用户和被呼叫用户,并现实相关的通话时间和呼叫时间。本文数据设计中所需要的数据是指前三项。主要计算根据是用户的通话时间和次数。1)先对所需要的数据进行初始化设置,并对用户的通话时间进行统计,将统计后的时间放人PageRank模型中。然后对原始数据进行分析,并对各个号码建立相关的联系。通过Map对原始数据进行分析,输入>,其中call_number可以被看做为KEY。时间计量则是value。通过Reduce进行操作,并将上阶段操作中输出的键值和一样的KEY进行合并,将相同的号码的数据进行统计,多时长进行合并。

2、性能监控。监控的主要原理是通过Hadoop对相关守护进程进行开启,并注册相关的Metrics到本地MBeanServer上。在该监控系统中所用到的监控端口包含NameNode的50070端口和DataNode50075端口。而Hadoop本身就自带监控体系,所以访问监控端口时不能直接跳回监控数据中,而是跳到相关的jsp页面。所以,在访问时可以利用JMX体系,并获得集群监控中的所有数据,利用这一体系就建立数据进行获取,不仅可以及时掌握各种信息,同时数据格式也更利于用户进行处理。监控方法有很多种,本文介绍的方法是通过REST形式对数据进行获取。利用这种方式,可以对所需数据进行筛选,只选择自身需要的数据进行了解。

三、实现

1、数据处理。数据处理的过程中,首先要对数据进行过滤,数据过滤中,输入和输出文件分别为/cdr/raw和/cdr/ clear。并利用Spark和Mapreduce对数据进行过滤。最后将过滤后数据结果分别存到HDFS和HBase中。在HDFS中,数据经过过滤并进行储蓄时,其目录名和字段分割格式和导入时的一样。通过相关实验对过滤后的数据进行迭代计算,可以对用户进行分析,并提取有价值的用户。

2、监控实现。集群监控中的页面主要显示的是集群中的整体情况,并对整体进行分析。其主要内容是对DFS的容量和使用情侣进行分析,并通过反应集群对数据的改变进行实时监控。而节点信息所反映的则是集群中所有的节点基本情况,并通过节点名称进行相应的点击,可以对其信息进行查看。而节点中的主要内容则是上述提起的CPU使用情况,在对数据进行绘制时,以折线图为主,并以每一秒为数据间隔。除此之外,对CUP的使用情况进行评估,在评估的过程其使用变化发生改变时背景色也会发生相应的变化。而在监控中,也可以对集群的整体情况进行相关监控,并对所有CPU数据进行分析和评测,对整体的CPU负载情况进行准确的评估。

四、总结

随着计算机技术的发展,集群性能体系需要不断的优化和建立。本文通过对集群性能的监控情况进行分析,并提出了相应的优化办法,同时也对其监控方向进行阐述。但是收到本文专业和知识的限制,在对其优化的过程中还存在一定的局限性,因此在今后的学习中,会对其优化办法进行不断的改善。

参 考 文 献

[1]王馨曼. 大规模数据处理及集群性能监控与优化[D].大连理工大学,2015.

[2]林文辉. 基于Hadoop的海量网络数据处理平台的关键技术研究[D].北京邮电大学,2014.

[3]卢兴见. 大规模云数据中心负载优化调度方法研究[D].浙江大学,2014.

猜你喜欢
端口数据处理集群
电容式传感系统数据处理电路的设计
一种端口故障的解决方案
基于ARCGIS 的三种数据处理方法的效率对比研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
高层建筑沉降监测数据处理中多元回归分析方法的应用研究
视频大数据处理的设计与应用
勤快又呆萌的集群机器人
集群品牌是集群整体的品牌还是集群产品的品牌?
为程序或设备在路由器上打开端口