浅谈基于p2p网络的搜索引擎技术

2014-10-21 20:07吴兆立
数字化用户 2014年20期

吴兆立

【摘 要】随着互联网的迅速发展,网上的信息资源海量增加,在给用户提供共享的同时也给用户搜索、定位和获取信息资源带来了巨大的困难。传统的搜索技术采用集中式架构,存在很多问题,对搜索性能产生了很大的影响。P2P作为一种新的网络模式,具有自组织、分布式、可扩展性的特点。它的出现给搜索引擎技术的发展带来了新的机遇。本文首先介绍课题的研究背景,阐述当前P2P搜索引擎的国内外研究現状。然后介绍搜索引擎的发展历史、原理以及未来的发展趋势以及P2P技术的基本概念并分析其主要优点。最后介绍一种新的基于Chord协议的P2P网络模型。

【关键词】P2P网络 搜索模型 Group Chord协议

随着网络的快速发展,网络上的资源海量增加。互联网的出现,开创了文类文化信息化的新时代。它向公众开放的信息资源比世界上任何一个图书馆或任何一个信息存储机构都要多。人类的生活、学习、工作都离不开网络。因此,如何在这海量的信息资源之中获取对自身有价值的信息已成为人们日益关注的问题。搜索引擎技术是一种帮助网络用户查询所需信息的搜索工具,是为论文解决网上信息查询困难的难题应用而生的,它可以有效地帮助用户在网络上查找到自己所需要的信息。如果说络改变了人类的生活,那么搜索引擎正是改变人类生活的工具。

一、基于Chord协议的P2P网络

(一)Chord的拓扑结构

Chord将整个网络抽象为一个环形的拓扑结构,通过一致性哈希变换(Consistent Hashing),通常使用哈希函数SHA-1,给每一个节点和文档都赋予一个m位的标识符key,节点的标识符是通过对节点的IP地址进行哈希变换得到的,文档的标识符是通过对文档的内容进行哈希变换得到的①。标识符的长度m应该足够大,使得Chord环能够容纳最大可能的参与节点数,并且使得任意两个节点或者文档经过哈希变换后得到相同标识符的概率可以忽略不计。Chord网络中所有的节点根据标识符从小到大的顺序以顺时针的方向构成一个逻辑环形的拓扑结构,文档保存在后继节点上。后继节点(Successor)是节点标识符大于或者等于当前节点标识符的最小的一个节点,形象说后继节点就是逻辑环中顺时针方向第一个跟着当前节点的实际存在的节点;前置节点(Predecessor)与后继节点正相反,是逻辑环中逆时针方向第一个跟着当前节点的实际存在的节点,方便节点逆时针方向的查找,节点m的后继节点和前置节点分别记为Successor(m)和Predecessor(m)。

(二)Chord的资源搜索机制

在Chord网络中,简单的资源搜索机制是每个节点只需要保存其后继节点的信息,这样查询消息就可以沿着Chord环以顺时针的方向一步一跳的传递,直到找到匹配的节点②。这种通过节点的邻接关系进行消息顺序传递的方法虽然简单可行,但是效率非常低,网络中的两个节点为了找到对方很可能将消息绕环传递一周。为了提高查询效率,减少定位开销,网络中的每个节点保存一个具有n个表项的Finger表(Finger Table,邻居表),这样网络中的每个节点只需要维护自身Finger表中的小部分节点,无需掌握网络中其他节点的信息,就可以通过节点之间的通信,找到任一节点。

二、新的P2P网络模型的基本思想

Chord通过把网络虚拟成环形的拓扑结构,完成了信息的快速搜索,提高了查询效率,但是存在以下两方面的问题:

(1)以Chord为代表的结构化P2P网络在构建网络的时候没有考虑节点的实际物理拓扑结构,都忽视了覆盖网络与底层网络的差异,这样将会导致在实际网络中相距很近的两个节点通过函数映射在覆盖网络上却相距很远,而在覆盖网络中距离很远的节点却可能成为实际网络中的临近节点,即Chord网络的绕路(Detouring)问题。这样的底层网络与覆盖网络的不一致,将致使覆盖网络上的两个临近节点理论上看似距离很近,但实际上要想找到对方却要经过很长的路径,使得基于这种覆盖网络所做的评测的不可靠;相反实际距离很近的两个节点,因为被映射到了覆盖网络上距离很远的位置,却要在网络中白白的绕一圈才能找到对方,致使走了大量重复路径,增加网络流量,浪费带宽。

(2)目前的非结构化P2P网络已经充分的考虑了节点性能(包括计算能力、存储能力、网络带宽等性能)的差异,但是传统的结构化P2P网络尚没有考虑这一点,不加区分的赋予网络中的所有节点以同一的责任,这将造成高性能的节点没有充分发挥其能力的空间,而相对性能较差的节点却担负着无法负担的责任,严重影响了网络的稳定性和搜索信息的速度。

三、新模型的体系结构

模型与Chord网络不同的是,它改变了Chord协议的单一环形空间的拓扑结构,而引入了分层分布式的模型结构。整个网络是由多个Chord环彼此互连构成的,每个Chord环是根据节点的实际物理地址划分的,是相对独立的,Chord环中的节点依然按照Chord协议的规则组成结构化的P2P网络,而每个Chord环之间则是以完全分布式的方式连接的。

四、新模型介绍

新模型继承了Chord网络在可扩展性和鲁棒性等方面的优点,同时考虑了节点的实际物理地址和节点性能的差异,它是一个将网络中的节点按照实际物理地址的邻近性划分群组的分层分布式结构的网络模型。网络中实际邻近的节点在覆盖网络模型中也相距很近,使得网络拓扑和实际物理地址相对一致。

五、结论

P2P技术在网络应用领域显示出很强的技术优势,最近几年的迅速发展,受到广泛、关注。由于网络用户以及网络资源的增加,C/S模式下的网络对服务器要求很高,越来越难提供满意的服务性能。P2P技术的分散特性⑤与因特网的协议和结构完全相适应,具有极强的适应性和网络服务能力。因此,设计高效的搜索机制,快速而准确地找到所需要的资源,才能使P2P网络得以广泛应用。本文在分析了现有P2P搜索方法的优缺点基础上介绍了一种搜索模型,该模型能够以很小的开销获得很高的性能。

参考文献:

[1]毛薇,姚青,李涛.基于P2P的高效搜索引擎的研究[J].武汉理工大学学报(信息与管理工程版),2002,24(4):43.

[2]吕建明,刘悦,丁林,等.P2P与信息检索[J].信息技术快报,2005,(2).