基于大数据处理的并行计算性能研究

2021-04-04 12:19汪泽宇

信息记录材料 2021年5期

汪泽宇

（三亚学院海南三亚 572022）

1 引言

随着计算机领域的不断发展，近年来计算机已经深入居民生活的各个领域，加之物联网和移动应用的普及，人们日常生活中会产生各类各样的数据[1]。自2019年以来，国家推行工业互联网平台建设，生产制造企业各个自动化设备均在实现互联互通，为了实现设备的健康管理等，每日需要采集海量设备和生产相关数据[2]。以某一企业为例，其设备数据每日产生的量级已经达到TB级别，可以称之为大数据。如何实现对大数据的深入挖掘，完成基于大数据处理的规则识别，为方向决策提供数据支撑是当今大数据应用中的重要环节[3]。

2 大数据处理的必要性

尽管现如今能够相对较容易地获取形式多样的数据，但是从数据量角度而言，与大数据相比较仍然差距很大。在开发过程中，仅仅借助传统的方式从海量数据中得到对自身有价值的数据是非常不现实的[4]。对于海量大数据的分析，是未来发展的主要方向。使用大数据分析技术，可以协助人类快速发现事物的常规，为正确把握事物发展方向，满足自身利益做准备[5]。为了得到大数据更好的处理效果，开发过程中一般采用并行计算的方式，并行计算是以计算模型为载体的，计算性能的优劣取决于模型搭建的优劣，因此需要对计算模型进行深入研究和分析，对模型进行不断的优化，提升大数据处理过程中的效率，使人们可以充分享受大数据为人们生活和工业生产带来的便利。

3 并行计算模型的发展方向

模型算法是并行计算的核心，其载体是数据，数据的存储是关键。随着大数据的不断发展，存储的日益严峻性已经变得非常突出。目前，国内计算机产业结构的发展是存储和数据处理分离的局面，近年来数据处理技术在以每年9%的速度飞速发展，但存储技术的发展停滞不前，目前存储和数据处理之间已经存在近50%的差距。两者之间的差距仍然在不断拉大，因此未来在进行大数据处理计算模型研究时，存储性能的研究将会是重点方向。

随着计算机原理的不断发展，仅仅依靠单核技术已经无法满足大数据的处理效率。目前，多核技术已经成为主流方向。多核技术是将多个内核同时集成在一个处理器内部，每个内核分别完成不同的计算任务，这便使得每个CPU均可完成多个计算任务。对于多核计算机，其计算密度比较高，并且并行处理能力非常强，在相同的状态下所使用的功率更加低，能够满足实际的需求。

现如今，异构众核集成技术已经在并行计算模型中使用十分普遍。通常，模型都使用CPU和MIC相结合的方式，其中涉及到计算逻辑比较复杂的部分CPU处理，针对于密集运算则是有两种方式共同负责完成，然而密集运算的典型特征为分支比较少并且并行程度较高，此种架构为超级计算机的发展奠定了基础条件。

服务器技术逐步向着集群化方向发展，其价格更加便宜。现如今各个互联网公司和网络运营企业在进行系统硬件选择时，选择大规模服务廉价集群系统。此种集群服务的最大特点是可以自动地将故障状态切换为常态，其主要原理是如果集群中的一部分发生故障，不会影响系统的整体性能。另外，此集群可以支撑硬件扩容，或者在系统中增加资源存储，或者直接加入新机器便可实现异构硬件的扩展。系统可以根据实际情况，对资源或者机器进行自动的调用，此过程不会对系统产生额外影响。

4 大数据处理的计算模型

4.1 计算模型

随着计算机编程技术的不断发展，大数据处理计算模型已经得到了不错的发展，模型主要被应用在数据的分析和处理中，但现如今对于并行计算的模型研究并不多，急需解决的问题如下：

（1）对于成本函数和机器参数的研究需要深入。两个重要的要素可以作为模型是否成熟的标志，其一是机器参数，包含CPU和节点规模信息，其二是成本函数，是代表机器参数的函数。对以上两个要素进行深入研究，才可以对并行计算模型的发展提供丰富的依据。

（2）尽管现如今采用大数据编程模型大幅提升了计算机的计算性能，能够为系统资源提供横向扩展支撑，另外程序中还携带容错方法，如果出现节点时效等情况可以及时进行处理，尽管这种方式在某种程度上提高了系统的应对能力，但编程的扩展性和容错机制仅仅是针对某一个具体的案例进行描述的，所以并不存在统一的模型标准。所以大数据处理的并行计算模型需要对扩展性和容错机制进行标准化定义，使用统一的标准进行能力判别。

（3）大数据处理的效率影响因素众多，例如并行的级别、系统的通讯和存储问题，现如今所知的性能优化大多是对于某一个框架或者一个模型来讲的，不存在完整统一的理论，但是面向大数据处理的并行计算模型便需要解决此问题，采用统一的优化机制，制定能够面向所有模型的算法。

4.2 p-DOT模型及其优化方法

此模型是以BPS为基础生成的，且分三层。第一是D-layer层，即数据层，整个系统的结构呈现出分布式，在各个数据节点上可以进行数据的存储。第二层是O-layer层，即计算层，例如q作为计算机的某个阶段，那么此阶段内的所有节点便会同时进行单独的运算工作，各个节点都仅仅需要处理本节点所需要处理的数据，节点的数据中不仅仅包含最初的输入数据，还包括计算值生成的中间数据，这样便可以进行并行运算，从而将得到的中间结果存储在运算模型中。第三是通信层，在此层内，通信操作子会自动进行模型消息的传递，在传递过程中遵循点对点的原则，因为此阶段中所有节点计算均可以产生一个中间结果，在通信操作子的作用下，一系列计算结果便会被传递到下一个阶段，即上阶段的输出结果会被当作下一阶段的输入数据，如果不存在下一个阶段，则最终输出的数据便作为最终结果存储在计算机中。对p-DOT模型的优化方法可以从以下三个层次进行。

（1）D-Iayer层为了提升系统的容错机制，在系统运行过程中需要对数据进行备份操作。由于操作人员出现备份失误或者系统本身出现恢复问题，系统运行过程中随时会出现数据大批量丢失的现象。一般的备份会存在三份，每份数据都存在不同的场所中，如果数据层出现问题便使用备份数据进行恢复，对于备份数据使用如下数据存储结构，在对数据块进行存储时，每个数据库的复本仅可以存储在其相应的数据块节点中，另外若集群系统中的数目不多，某个机器便能够完成该数据块的一个及其以上复本的存储。根据此种数据存储策略可知，数据的复本的存储方式和原有数据的存储方式是相同的，数据节点是核心，并且按照分散性存储的方式展现，

（2）O-Layer层此层主要负责任务的处理，为了提升计算机的性能，近年来逐渐采用多核技术，系统的并行处理水平得到大幅增强，其计算密度也得到很大的提升，对其硬件资源的使用效率也得到大幅提高。传统的并行计算模型一般是采用并行通信的方式进行，在对O-Layer层完成优化以后，主要采用线程控制实现通信。优化后，在维持通信开销稳定的情况下，计算性能得到大幅提升。

（3）T-l ayer层模型的不断迭代更新是每个算法的核心问题，对于分布式的平台来讲，进行一次迭代便需要一次全局范围内的通信，然而此种情况又比较多，另外模型中存在大量的权重和唯一参数。以卷积神经网络模型为例，其迭代次数在45万次上下，占用系统通信开销非常大。

5 结论

随着大数据及其分析技术的不断发展，采用并行机制进行大数据处理已经成为当今时代发展的大趋势。模型是并行处理数据的核心，模型可以按照层级的方式进行优化，模型的优化是提升大数据处理效率的核心所在。本文以p-DOT模型为例，研究了其内部三个层次的模型算法优化方法。