试论大数据环境下信息检索技术在数字图书馆中的应用

2017-06-15 09:56刘燕

新西部·中旬刊 2017年5期

刘燕

【摘要】大数据环境下，信息检索技术在图书馆信息检索方面的重要性越来越大。基于内容的信息检索技术相比于传统的信息检索、全文检索而言，具有效率高、精准度高的优点，但是在面对未来信息检索更加精确化的要求时也显得力不从心。大数据技术实现了用户独特化、定期更新性、自我学习性相结合，实现大数据和人工智能的完美结合，是未来信息检索技术发展的方向。

【关键词】大数据环境；信息检索技术；数字图书馆

数字图书馆的信息检索技术，是图书馆发挥信息服务功能的核心部分，数字图书馆的易用性很大程度上取决于信息检索系统设计是否科学、合理。据专家考证，18世纪以前，知识更新速度为80至90年翻一番，20世纪90年代以来，知识更新加速到3至5年翻一番。近50年来人类社会所创造的知识比过去3000年的总和还要多，知识总量呈几何级数增长。这些信息都是以数据的形式分布于飞速发展的因特网，而因特网中的数字图书馆则是信息储存的主要基地，这就使得如何在庞杂浩繁的信息资源中找到用户想要的信息，最大限度地在科学性、合理性的前提下进行信息检索服务，成为必须面对且急待解决的问题，即基于大数据环境下，数字图书馆信息检索技术的研究问题。目前关于数字图书馆的研究和信息检索研究都已经比较完备，但是针对如何在大数据环境下，满足数字图书馆用户的多样需求的信息检索技术的研究并不多，这也是现代数字图书馆发展急需解决的问题之一。

一、信息检索技术的优缺点对比

目前，从对数字图书馆的信息检索技术研究成果来看，主要有三个时间段：传统的信息检索、全文检索、基于内容的信息检索。这三种技术各有优劣。

1、传统的信息检索技术优缺点分析

信息检索技术开始时基于对关键词、概念知识的检索，或者是仅仅针对一个个单字进行的检索，主要按照关键字的方法进行匹配检索。如果是针对单字、单词进行检索的话，能够比较准确地完成检索需求；如果是需要根据内容相关性进行检索的话，检索的结果误差大、耗时长，基本上不能满足用户需求，而且检索的适应度非常差。如果是针对一个只有几百本书的图书馆来说，这种检索技术还勉强可用，但是绝对不能适应现在动辄几百万本以上存储量图书馆的检索需求。

2、全文检索技术优缺点分析

一般来说，按照自由词进行检索的一种检索方式就是所谓的全文检索。全文检索技术检索的侧重点和传统检索技术的侧重点不同，它检索的主要内容不是对象的外在表征，而是对象表达的内在信息。所以說，全文检索技术克服了传统检索技术精度差、适应度差的问题，使得用户每次检索的结果的匹配度都比较高，基本上能满足用户的需求。但是由于全文检索技术内在查询机制的缺陷，导致在查询过程中会出现效率低下，查询的数据量太大，造成资源利用不合理，因而也越来越不能被用户所认可。

3、基于内容的信息检索技术（简称 CBR）优缺点分析

CBR技术就是指综合运用计算机模拟视觉技术、图像分析处理技术、图像智能理解技术、模式分析识别等学科中的一些方法作为部分基础技术，从数据中提取特定的信息线索，然后根据这些线索从大量存储在数据库中的信息中进行查找，检索出具有相识特征的内容。从本质来讲，CBR技术只关心对用户检索信息的快速扑捉，并不会在分析用户检索信息的本身上下功夫。

也就是说，作为不以字和具体内容为关注点的检索技术，CBR技术的检索特点就是基于特征的信息检索技术。它能够在用户需求指引下，针对需要检索的数据目标进行分析处理，形成检索目标特征，然后根据这些特征在数据库中进行近似匹配。因而相对于前两种方法来说，检索的效率和精准度更高，更能满足用户的需求。但是，随着人类知识基数的不断增大，专业分工的细化，这种信息检索技术在面对未来信息检索更加精确化的要求时，显得越来越力不从心。

二、大数据技术在数字图书馆信息检索技术中的应用

对于“大数据”（Big data），研究机构Gartner给出了这样的定义：大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。[1]

麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。[2]

从本质上来讲，大数据技术的目标不是建立占有人类的知识海，而是面向知识海洋的庞大数据信息进行有目的的处理、利用和管理。显然，大数据技术必然是和网络技术、云计算以及人工智能技术密切相连的集成技术。也就是说，它是一种依靠网络技术、人工智能技术和云计算，利用网络上众多硬件进行信息的高效利用、处理和管理。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。[3]

随着互联网时代的到来，云计算、云存储的不断深入发展，人类的知识越来越被网络连接在一起。那么，如何高效地发现和检索出用户需求的信息，快捷、精确地在知识海中捕获被埋藏的数据，成为一个被关注的焦点。在这种需求之下，多种关于检索技术的研究都在如火如荼地进行之中。随着这些研究的深入进行，研究者们认识到，如果最终能够实现大数据和人工智能技术的完美融合，这将使未来信息检索技术更加智能化，也将使人类对于知识海洋的利用更加充分有效，对知识的管理更加智能化。建立于人工智能基础上的大数据技术的研究，必然带来其它各个学科的变革，从而有力地推动信息检索技术的飞速发展。因而，大数据技术的应用是对数字图书馆信息检索技术的革命性推动，它充分利用人工智能技术，使数字图书馆的信息检索服务更加人性化，检索方式更加智能化，结果更加精确化，查询颗粒更加模糊化。

三、大数据技术对数字图书馆信息检索的影响

为了满足数字图书馆的用户信息检索的多样需求，大数据技术必须也必然会促进信息检索技术的变革，而且这种变革会带来诸多更适应未来信息利用和管理的影响。

1、独特用户化

独特用户化指的是针对用户的信息检索历史，为用户建立独特的检索特征，从而匹配出检索的数据库。这种信息检索的方法主要是立足于对用户历史检索数据库的收集和分析基础上，采用智能化的分析手段，实时为用户量身打造适合其某一阶段需要的检索信息库，并能够随时更新，给用户提供检索建议，从而精准计算用户的检索需求。同时，这种检索技术还需要具备较高的智能化，它能在和用户的交互过程中，不断地分析用户需求的信息目标，并将所有可能的目标按照用户可能关注度的高低实时反馈给用户，供用户取舍，在用户的取舍中不断修正和定位，及时高效地帮助用户发现目标信息，最终实现独特用户化的信息检索。

2、定期更新性

大数据环境下，数字图书馆的数字化信息数量大、种类多，数据价值联系低，处理速度快、效率高，而且数据结构复杂，不仅有结构化的数据、半结构化的数据和非结构化数据，而且非结构化的数据所占的比例越来越大，使信息更新的速度越来越快。[4]因而，为了更好地满足用户的需求，适应图书馆非结构化数据的不断增加，提高图书馆的信息检索效率，必须相应地对信息检索的引擎进行定期优化。

一般来说，定期优化主要指的是，信息检索引擎的技术人员，定期根据信息检索的检索效率和检索出的结果的精准程度进行评价，从而进行改进提高，使用户始终能够在每一次的检索中得到自己期望的结果，满足客户需求。同时，由于非结构数据的比例不断变大，使信息更新的数据飞速增加，如何对这些新增加的数据进行有效管理，是信息检索效率高低的关键所在。因此，信息检索引擎应该根据用户不同的需求和特点，按照对客户需求分析的结果，对全库数据进行分类排队，保证信息检索引擎的检索结果始终能满足用户需求。

3、自我学习性

图书馆的信息检索服务的最终目标就是要准确定位用户的需求，实时完成不同用户的检索方案，快速将匹配的结果按照精准程度的高低排序，让用户能够根据自身需求，选择获取。要达到这一目的，数字图书馆的信息检索引擎要具备自我学习的能力。这种自我学习能力主要指的是信息检索引擎能够根据用户的检索历史，不但能对用户的需求根据分析进行准确预判，还能实时将信息检索的有关信息进行排列和反馈，并对用户检索历史进行分析判断，反馈最适合用户需求的检索信息。同时，信息检索的学习应该是全范围的检索。随着电子化产品的不断发展，对知识的储备不再像以前那样局限于文字或声音，越来越多的图片、视频性信息数据已经进入数字图书馆，也渐渐成为知识储备的主题。作为信息检索技术，就要能满足对这些信息的检索，根据用户的需求，实时高效地完成信息检索任务。当然，信息检索还要能在数据更新过程不断进行改进和提高。数字图书馆中的信息数据在不斷飞速更新，作为信息检索技术来说，要面对越来越庞杂的知识库和多样用户需求的挑战，更要不断改进和完善，使数字图书馆的用户保持较高的满意度，信息检索更加精准、高效。

【参考文献】

[1] 6个用好大数据的秘诀.中国大数据，2016.02.02.

[2] 大数据时代要有大数据思维.中国大数据，2015.11.3.

[3] 大数据时代还有隐私吗？中国大数据，2016.02.02.

[4] 张兴旺，李晨晖.数字图书馆移动视觉搜索机制建设的若干关键问题[J].图书情报工作，2015，59 （15）.

【作者简介】

刘燕（1979-）女，陕西咸阳人，西安财经学院法学院教师.