基于分布式的网络存储和数据保护系统

2014-02-11 03:47陈广清
机电工程技术 2014年12期
关键词:副本存储系统数据保护

陈广清

(广东电网有限责任公司梅州供电局,广东梅州 514021)

基于分布式的网络存储和数据保护系统

陈广清

(广东电网有限责任公司梅州供电局,广东梅州 514021)

持续增长的数据存储需求带动了存储技术的快速发展,分布式存储技术应运而生。所研究的基于分布式的网络存储系统和数据保护系统对于电力系统有重要的实际意义。针对梅州供电局现存的存储设备问题及实际情况,开展分布式存储技术及数据保护系统的研究,以改进存储系统管理,降低成本。

分布式;网络存储;数据保护系统

分布式存储技术应具备以下特点:高性能、可靠性、可扩展性、透明性及自治性。分布式存储系统的设计必须考虑采用高效的文件Cache机制,减小带宽延迟,为用户提供高性能存储服务,称为“高性能”;系统应该采用有效的容错机制,当出现网络不稳定或者某些节点状态处于不在线状态情况时,用户仍然能够获得所需要的数据副本,称为“可靠性”[1-2];分布式存储系统之所以能够支持超大容量数据存储,是由于它能够通过增加节点的方式扩大存储容量,称为“可扩展性”;分布式存储系统使用起来的感觉应该和本地用户没有区别,称为分布式存储系统的“透明性”[3];系统包含大量的节点和存储对象,人工维护难度很大,因此系统必须具有自维护、自恢复的功能,称为“自治性”。

Network Attached Storage(NAS)是目前极具发展前途的一种存储技术,安装简单、易于管理,并且具备高扩展性等优点,适用于局域网使用,但成本较高;Storage Area Network(SAN)是指由光纤通道FC(Fiber Channel)连接的存储设备网络,具有高带宽、低延迟、低误码率等优点,但是成本较高,因此不适用于本文的研究方案;Internet是一个Overlay网络[4],其本质上是通过Internet互联各种底层网络构成IP层,底层网络包括以太网、令牌环网络等。

P2P(Peer-to-Peer)计算也称为对等计算,是指两个节点进行资源共享,尽可能减少中心控制,其中节点称为Peer。与P2P模式相对应的是CS模式,相对于P2P而言,C/S模式中客户端是一个哑设备,所有计算和处理均在服务器端完成,而P2P中的节点处于对等位置,并不区分是客户端节点还是服务端节点。

P2P网络是指节点处于对等位置,并不区分服务器节点和客户端节点,通过P2P模式进行连接形成网络,例如Chord和Tapstry都是P2P网络。P2P网络可以用于构造基于Internet的分布式存储系统。

目前处于发展阶段中的P2P海量数据存储系统主要有OceanStore系统,Past系统和CFS系统[5]。国内有“燕星”系统,OceanStore系统是基于Tapstry算法发展形成的存储系统;Past系统是基于Pastry算法发展形成的存储系统;而CFS系统是在Chord路由算法基础之上建立起来的文件存储系统。

1 基本概念

1.1 P2P分布式存储机制

得益于Internet迅速发展,P2P模型得到了快速发展,基于P2P存储技术的分布式存储系统不仅具备高可靠性,同时具备高可扩展性,因此受到了广泛关注。

1.2 数据保护系统

网络存储系统对可用性和持久性有很高的要求,也就是存储系统的可靠性。计算机软硬件故障、病毒黑客攻击、人为操作故障或资源不足引起计划性停机都有可能导致数据丢失。

数据保护系统可靠性指标主要有三项:稳定性、安全性和可用性。稳定性(Stability)是指作为存储系统必须有能力为用户持续、24小时不间断服务的能力。

安全性(Security)是指系统中数据在运行中保持安全可靠,数据应该保证完整并可靠地进行存储,一旦出现故障,不能影响数据的可用性和一致性,保证数据的安全有效。

可用性(Availability)表示存储系统能够提供正常服务的时间百分比,在可用时间段内,能够确保存储系统的正常、稳定工作。

2 P2P分布式存储体系结构

本文通过采用P2P技术,将梅州供电局的零散计算机通过Internet连接起来,通过整合资源,形成一套可靠性高、稳定性好、低成本的分布式存储系统。

按照系统功能进行分类,P2P系统可以分为应用层、会话层、数据层、路由层和物理层,如图1所示。

图1 P2P系统体系结构

应用层的作用是使用户没有远程操作的感觉,和本地存储一样对存储系统进行操作,提供了一个面向用户的对外接口。

会话层主要是实现节点管理机制,检查是否每个节点在线,是否能够获取节点中的数据等。

数据层主要负责副本数据动态管理,并且要注意避免“搭便车”及“公共悲剧”等常见的现象,影响数据的可靠性及可用性。

路由层通过路由机制和拓扑算法,负责提高搜索的高效性,减小获取副本数据的时间延迟。

物理层也就是每个节点(计算机)及计算机节点之间的网络硬件连接,是整个P2P分布式存储机制的最底层,也是硬件基础设施。

2.1 P2P存储系统分类

根据结构关系可以将P2P系统细分为四种拓扑形式:中心化拓扑,半分布式拓扑,全分布式非结构化拓扑,全分布式结构化拓扑四种类型。其中,中心化拓扑P2P存储系统结构尽管其可维护性最好、发现算法效率最高,但是考虑到其可靠性差、可扩展性差,不予采用;半分布式拓扑P2P存储系统结构的可靠性、可扩展性、可维护性及算法效率均处于一般水平,本文不予采用;全分布式非结构化拓扑结构由于其可扩展性差,不适合应用于电力系统;全分布式结构化拓扑结构不仅可靠性高、可扩展性好,而且便于维护,并且具有较高的搜索效率,因此本文采用全分布式结构化拓扑结构的P2P存储系统模型。

2.2 选择副本放置策略

一份完整的数据可以通过分割成不同副本的形式存储在不同的网络节点中;当某个节点需要获取数据时,可以将所需副本从其他节点获取并完成数据恢复。副本在节点中存储的方式称为副本放置策略。

副本放置策略通常有两种,顺序放置策略和随机放置策略。顺序放置算法是指按照一定顺序选择当前节点及与当前节点相邻的K-1个节点,将副本进行顺序存储;随机放置策略是指随机选择K个节点对副本进行存储,并建立索引表便于掌握数据副本的存放位置。两种副本放置策略各自有优缺点,随机放置策略的优点是数据恢复效率较高,但缺点是需要建立索引表,并需要维护索引表的正确性及一致性;顺序放置策略的缺点是恢复数据效率较低,但优点是可靠性高,不需要建立和维护索引表,设计简便。考虑到电力系统对可靠性要求较高,因此本文的设计采用顺序放置的副本放置策略。

2.3 分布式网络存储系统访问模型

图2给出了分布式存储访问模型,客户机通过Internet与Internet存储访问服务器连接和交互,Internet存储访问服务器则通过局域网与分布式存储系统中的每一个节点计算机进行连接和交互,Internet负责接收与处理来自用户的存储访问服务请求。

图2 分布式存储访问模型

分布式存储访问模型使用户实现远程分布式存储系统进行操作具备了可能性。

3 分布式存储系统的数据保护技术

由于分布式存储系统中的节点可能因故障或下线等原因导致离开网络系统,为了保障数据的安全性和可靠性,设计分布式存储系统最大的挑战是怎样在不可靠节点集合中实现可靠的存储服务。

3.1 数据丢失原因

导致系统数据的丢失或破坏的原因主要有计算机软硬件故障、病毒黑客攻击、人为操作故障、资源不足引起计划性停机等。导致数据丢失的原因主要有硬件或系统故障、人为操作错误、软件问题和故障、计算机病毒和自然灾难,其中硬件或系统故障占56%,人为操作错误占26%。

3.2 数据冗余策略

数据冗余策略是指同样的数据文件拥有多个备份,并将不同的备份存储在多个不同的节点上,当某个节点因故障或不在线等原因导致其数据文件不可使用时,可以通过其他节点上的备份完成数据重构。

纠删码冗余策略和复制冗余策略是当前广泛使用的两种冗余策略。复制冗余策略相对于纠删码冗余策略比较简单,只需将副本复制多个备份存储到系统的多个节点中,当部分节点发生故障或不在线时,只要有一个节点的副本可用,该副本文件就可以被获取到,从而完成数据重构。由于以上特点,复制冗余策略的可靠性比较高,存储方法也比较简单,其可靠性与副本备份数量成正比,只要通过增加副本数据就可以提高可靠性。

纠删码编解码原理如图3所示。纠删码冗余策略相比复制冗余策略更加复杂,纠删码冗余策略上是将文件分割成为n份,并将n份副本编码生成m个编码块,m个节点上分别存储一个编码块,且m大于n,通过纠删码冗余策略可以在m个编码块中任意挑选n个编码块,成功完成原始数据重构。

复制与纠删码两种冗余策略各自有不同的有点,纠删码所需的存储和网络开销较小[6],可扩展性更好[7],但是比较复杂;复制策略实现过程简单,可靠性高,研究表明某些特殊情况下,如系统节点可用性极端低下,纠删码冗余策略的运行效率反而比复制冗余策略低下[8],因此本文选用简便的复制策略。

图3 纠删码编解码原理图

3.3 数据保护的相关技术研究

在分布式存储系统中,由于维修、定期维护等原因,总会遇到需要进行数据迁移的情况。生活中经常会用到数据迁移,例如将目标文件从计算机拷贝到U盘,就完成了一次数据迁移的过程。所谓数据迁移就是将目标数据从一个存储介质移动到另一个存储介质的过程。当前数据迁移的方式主要有在线迁移和离线迁移。在线迁移是指不中断正常业务的情况下同时进行数据迁移,但是数据迁移操作可能会增加系统开销,对正常业务造成干扰,甚至造成业务停顿;离线迁移是指在业务停止的时候以离线的方式集中执行,但是对于本文研究的电力系统这种需要不间断服务的业务不适用。针对本文研究的电力系统,可以采取在线迁移手段。

重复数据越多意味着系统需要消耗更大的存储空间和管理成本。因此删除重复数据可以减小存储需求。当数据重复度较高时,重复数据删除的工作效果就体现得更为明显。

4 总结

本文针对电力系统可靠性要求高的特点,同时考虑到节点的可用性与存储额外开销都无法精确描述,选择复制冗余策略进行数据保护;在副本放置策略选择过程中,选择设计简便、可靠性高的顺序放置策略;引入数据分布管理、数据迁移技术及重复数据删除技术等数据保护技术,针对电力系统需要不中断正常业务的情况下进行数据迁移,优先选择在线迁移技术。本文研究成果对分布式网络存储系统的设计和实现具有一定指导意义。

[1]MukeshSinghal and Niranjan G-shi⁃varatri.Advanced Concepts in Oper⁃ating System,Distributed,Data⁃base,and Multiprocessor Operat⁃ing Systems[M].McGraw-Hid,INC,1994.

[2]Andrew S.Tanenbaum.现代操作系统[M].北京:机械工业出版社,1999.

[3]陈晓宇,苏中义.具有副本透明性的分布式文件系统模型的讨论[J].华东交通大学学报,2000,17(1)51-55.

[4]D.G.Andersen,H.Balakrishnan,M.Kaashoek,et al. Resilient overlay networks[C].In Proc.18th ACM SO⁃SP,Banff,Canada,October 2001.

[5]Frank Dabek,M.FransKaashoek,David Karger,et al. Wide-area Cooperative Storage with CFS[C].In SO⁃SP,Oct.2001.

[6]H.Weatherspoon,J.Kubiatowicz.Erasure coding vs.rep⁃lication:A quantitative comparison[C].Proceeding of IPTPS’02,Cambridge,Massachusetts,March 2002.

[7]A.G.Dimakis,P.G.Godfrey,M.J.Wainwright,et al.Net⁃work coding for peer-to-peer storage[C].Proceeding of INFOCOM,Anchorage,Alaska,May 2007.

[8]A.Dandoush, S.Alouf,P.Nain.Simulation analysis of download and recovery processes in p2p storage systems[R].Research Report RR-6858,INRIA,2009.

Research of Network Storage and Data Protection System Based on Distributed Technology

CHEN Guang-qing
(Meizhou Power Supply Bureau,Meizhou514021,China)

Storage technology develops rapidly with the growth of data storage demand,distributed storage technology comes to being. Research of Network storage and data protection system based on distributed technology in this paper has important practical significance for the research of power system.According to the current storage equipment and the actual situation of Meizhou power supply bureau,distributed storage technology and data protection system are researched in order to improve the storage system management and reduce the cost.

distributed;network storage;data protection system

TM73

:A

:1009-9492(2014)12-0155-04

10.3969/j.issn.1009-9492.2014.12.039

陈广清,男,1981年生,广东梅州人,硕士,工程师。研究领域:信息安全、云计算、云平台。

(编辑:向 飞)

2014-11-14

猜你喜欢
副本存储系统数据保护
分布式存储系统在企业档案管理中的应用
面向流媒体基于蚁群的副本选择算法①
天河超算存储系统在美创佳绩
TPP生物药品数据保护条款研究
副本放置中的更新策略及算法*
欧盟数据保护立法改革之发展趋势分析
欧盟《一般数据保护条例》新规则评析
分布式系统数据复制的研究
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统
一种基于STM32的具有断电保护机制的采集存储系统设计