读秀与万方:二维检索空间与多维检索空间的演绎❋

2014-12-25 02:15
图书馆 2014年2期
关键词:标引字段全文

(安徽大学管理学院 安徽合肥 230601)

科学研究的起始建立在获取大量真实并且有价值的信息数据之上。优质的学术搜索引擎可以满足研究人员在不同研究阶段所需的诸如起源性、全面性、新颖性的文献要求。从使用者角度判别用户信息需求是否完全实现,可以通过两个指标鉴定,即信息检索结果的准确性和信息原文获取的便捷性。同时,任何学术搜索引擎从基础检索服务到高级知识服务都需为用户提供易于上手的检索方法并实现检索结果的便捷获取。实现这一复杂过程,专业的学术搜索引擎系统需从信息资源来源、信息组织方式、信息检索方式、信息筛选方式到原文显示与提供做精心的布置。

1 读秀学术搜索与万方知识服务平台概况

读秀学术搜索拥有丰富的文献类型、庞大的全文数据资源、简明的检索方式和330万篇数字化图书联合成员馆本地馆藏书目,提供深入全文和章节目录的知识检索,实现馆藏纸质图书、电子图书、学术文章等各种异构资源在同一平台的一站式检索,海量全文数据通过系统自动化文献传递服务,为研究人员学习、写论文、做课题提供全面的学术资料和获取知识资源的捷径。

万方知识服务平台融合了12种类型数据库,以其强大的外文文献库、专利信息库、科技成果库成为研究人员查找科技信息必备的搜索引擎,数据库对资源的有序组织配备完备的检索系统,达到高检准率的要求。

2 读秀库与万方库功能对比

2.1 资源覆盖对比

从资源类型来看,万方数据库覆盖13种资源类型,分别是学术论文、期刊、学位论文、会议论文、学者、专利、标准、成果、图书、法规、机构和专家;读秀数据库覆盖25种资源类型,除去万方库已有类型,还有电子书、视频、词条、词典、课程、文档、考试辅导、图片、电影、音乐和虚拟咨询。除了公开正式出版的学术文献,读秀库还涉及了隐藏在博客、论坛、网页、新闻、讲座内的学术信息,同时通过提供例如考试资料、电影、音乐资源满足研究人员生活化和娱乐化信息需求。从资源数量来看,读秀库以7610万的学术论文、330万图书和8300万报纸数量优胜于万方库的2680万学术论文和4500万图书数量(见表1)。

表1 文献数量与类型对比

综上,读秀库文献来源种类新颖繁多,资源数量庞大,涉及面广,覆盖面全,各种类型的资源收录均匀。万方库的资源覆盖面有限,分布的重点在全文收录、按月更新的外文期刊库、外文会议论文库、学者库、科技成果库和专利库,资源量总体少于读秀库(见图1)。

图1 资源覆盖对比

2.2 检索功能对比〔1〕

标引深度。检索功能的强大与否体现了数据库的标引程度。读秀知识搜索只提供输入关键词的初级检索,对于查找资料的广泛性和全面性达到保障,但是无法有效的保障查找资料的准确性。尤其是面对资源量庞大的读秀库,只通过关键词的初级检索得到的检索结果亦是庞大的数量,用户难以在短时间内找出最精准的一篇文献。万方提供初级检索、高级检索和专业检索。高级检索的检索模式为“某字段”匹配“精准度”匹配“年限”匹配“文献类型”,字段与字段之间的运算关系运用“与”、“或”、“非”逻辑算符表达。专业检索可以提供一段文本(比如科学技术要点),由系统推荐检索词。使用高级检索和专业检索查找文献是研究人员提高检准率必需掌握的检索策略。

表2 读秀和万方检索字段对比

检索字段。一个字段即一个检索入口,通过字段检索用户可以快速准确地查找所需文献,每一个字段入口都是数据库的一个倒排文档。通过表2可以看出,读秀库提供的可检索字段有13个,占所列字段的37%,仅仅提供文献类型的主要特征检索,降低检准性。万方库提供的检索字段共26个,占列出35个字段的74%,检索字段丰富,提供用户多入口检索。万方库的检索字段有主题检索,说明在文献入库时加工人员对每篇文献重新进行准确的主题标引和深加工。

检准率。以“学术搜索”为关键词,分别在读秀库和万方库的期刊库中使用关键词字段检索,读秀库得到85篇题录,经过排查,85篇题录均为库内全文数据,其中56篇的关键词有“学术搜索”,29篇期刊论文无法检索关键词字段,说明读秀库对于29篇论文没有做关键词标引,只有题名、作者、刊名、出版日期、ISSN、期号、参考文献格式、摘要。因此检索读秀库的全文获取率为100%,检准率为56/85=66%。在万方库检得文献70篇,经过检查,67篇文献为全文信息,并且都满足检索条件,因此全文获取率为95%,检准率为100%。

图2 检索功能对比

通过检索功能的数据对比(见图2),可以看出读秀库的检索入口覆盖率正好是万方库的一半。多字段匹配检索某一文献相当于在多维空间中多坐标定位某一点,快速而精准。库内文献量庞大而系统检索功能不充足,想要准确找到需求文献需要花费一定时间和精力,这是检索人员不希望遇到的情况。因此检索功能强大的万方库检准率必然比读秀库高。但从全文获得率来说,读秀库的全文数据比万方库高。

2.3 结果筛选对比

读秀库的结果筛选方便易操作,在用户检索某一类型文献时,系统自动将其他所有类型文献执行相同检索,在同一界面显示。检索结果可以通过左侧的年代、学科、期刊名、期刊种类筛选,或右侧的匹配方式和排序方式筛选。

万方库的结果筛选只有两种方式:年份和学科两大类。万方数据库对于入库文献的充分组织和标引,保证较高的检索准确率,结果仅作基本筛选即可满足需求。读秀库的检索功能无法达到较高检准率时,必须依靠强大的结果筛选功能才能保证检索结果可视化。

2.4 文献获取对比

读秀库的文献获取方式多样,主要方式为“图书馆文献传递”,输入接收电子邮箱和验证码即可,系统自动将文献发送邮箱。这种获取方式规避了未知数量的用户点击链接自主批量下载的法律风险,我国信息网络传播权规定在电子文献通过网络一对一传递的情况下,属于合理适用范围。其他获取方式还有文献互助、本地馆藏信息、网络书店信息推送。万方的获取方式只有一种,即点击相应链接下载。

3 检索空间的构建

数据库对文献组织和知识加工的目的在于有序揭示文献资源,并建立一个简洁明了、便于使用的检索系统。一方面,文献经过深加工与挖掘,需要配备相应良好功能的检索系统,让研究人员在不同检索过程中深刻体验到系统数据加工的有序性和检索功能的易用性。另一方面,对文献的标引深度、有序组织程度和知识挖掘程度影响研究人员对文献和文献间知识关联的理解程度。〔2〕按照知识挖掘深度,本文把数据库组织程度分为如下几个层次:

①一维组织是指对大量文献有序的收纳入库,这个“序”可能是文献入藏的序列号,所有文献按照序号排列形成一维组织空间。一维空间是一条直线,决定直线长度的即文献量的多少,对一维组织空间里的文献进行检索称为一维检索空间,特征是只有一条X轴,数据按序列号顺排查找。从本质讲,维度组织空间和维度检索空间是同一空间,每个坐标轴和轴上的刻度、量才是一样的,每条轴对应一个检索字段。标引人员使用则称为组织空间,检索人员使用则称为检索空间。②二维组织在一维组织的基础上,对入藏文献的外部特征进行二次标引和组织,外部特征主要有著者姓名、出版者、文献题名、出版日期,增加检索字段即增加一条轴,同时增加检索维度形成二维检索空间。二维空间是一个平面,特征是有两条坐标轴:X轴和Y轴。③三维组织在二维组织的基础上,增加标引深度同时也增加了检索维度,在这一维的组织中,通常使用的组织方法是对文献内容特征进行挖掘,主要有关键词、主题词的标引、赋予分类号。三维空间是一个立体空间。④四维组织利用文献间内容的关联,诸如文献与文献的引证与被印证关系、科技查新对比寻求空间里点对点(点指代某篇文献)的关系,组织成四维检索空间。⑤五维组织主要是知识发现与趋势预测技术,寻求点对面(面指代某个倒排文档)、面对面的关系。例如用专利地图分析A公司发展策略,检索到某公司与其最大竞争对手公司所发明的专利,并用相应软件平台绘制两家公司主要的技术分布和研发重点(见图3)。图中A圈区域表示A公司拥有专利的主题地形,B圈部分表示其竞争对手拥有专利的主题地形,C圈区表示两公司专利申请的空缺部分,可以看出对手在此领域中专利申请量较少,对A公司而言,可适当考虑技术合作或并购其对手,避免技术重复研发或因专利保护造成两败俱伤。这种利用深层知识挖掘支持决策、预测方向在信息咨询中具有较大应用价值。⑥多维组织。从一维空间到多维空间的组织,同时也是对文献从定量分析到定性分析的过程,使得杂乱无序的文献库从线到面、从面到体,逐渐可视化。〔4〕而研究人员在研究过程中的文献需求,正符合这个由线到体逐渐细化的特征:研究之初,科研人员需要研读大量文献,逐渐确定研究结构后,从文献需求过渡到知识需求,这个知识需求的满足可能就是某篇文章里的几句话对作者的启发。

图3 两家公司专利分布地形图〔3〕

4 二维检索空间和多维检索空间的演绎

读秀库的特色:①读秀中文图书资源不仅拥有超星数字图书馆公司所支持的海量书籍资源,同时联合成员馆实地馆藏目录和网上大型书店的图书目录。揭示资源在各馆分布情况,保障使用者多种途径获取文献。②可以大幅深入全文的知识点查找,提高检全率;比如在图书章节中,某段话中陈述的一个结论、提出的新名词或关于研究的发展方向,这些新知识点虽还未成系统的在论文或专著中论述,但很可能成为研究之初最宝贵的资料。需要检索关于某主题在公开发表文献中最早的资料,可以通过读秀学术搜索引擎检索知识点,不仅可以查找到专门、系统论述的文献,还可以查找到隐藏在文献内容之间的起源知识点。③全文获取率高,系统根据用户邮箱自动将所需文献发送至用户邮箱。④实现一站式检索,输入一个关键词,检索结果包涵了25种类型的文献。

万方库的特色:①广博的外文文献库保证了科研人员查找外文资料的信息需求。②包涵专利数据库、科技成果数据库、中外标准数据库的科技信息库成为万方库资源的最大特色。③数据库对文献进行精确的标引,加深数据标引程度的同时对文献间的知识关联渐进可视化。④检索功能强大,多字段检索入口保证用户快速准确查找到空间内某节点文献。

因此,拥有庞大的资源量但未配备强大、深入、可视化的检索系统,使得读秀库像平面一样在二维检索空间无限伸展,大量资源只能以单个特征存在于这个平面上,无法立体化展示点对点(某篇文献与文献或知识点与知识点)的关系、点对面(文献与某个倒排文档或知识点与所有文献)的关系以及面对面(知识的深层挖掘)的关系。如果把拥有海量资源但标引未延伸到立体、可视化深度的读秀库比作二维检索空间,那么万方库则可称为多维检索空间。多维首先体现在检索入口的多样化,虽然资源量少但质量高,经过数据库组织人员的重新标引和逐步知识间关联挖掘,使得使用者在数据库中多维(一个维即一个倒排文档的检索入口)、多坐标定位检索精准至某个文献。〔5〕

5 结语

高检全率的读秀库和高检准率的万方库以其各自的特色为科研人员提供了不同广度和深度的信息服务。海量资源以平面空间分布为特征、附带便捷获取方式的读秀库为科研人员在初期研究提供了广泛、全面搜罗学术资源、网络资源和馆藏资源的平台;精质资源以立体空间分布为特征、深入挖掘知识关联的万方库为研究人员提供了深层标引、准确定位科技信息和知识的平台。读秀库在发挥其广博资源量的基础上,应该强化系统的检索功能和标引深度,对于庞大的数据库,可以尝试自动标引辅以人工修正标引的方式进行,加深知识关联和数据挖掘。万方库务必完善全文获取途径,在使用高检准率的检索系统时,检索结果如果只是题录信息,亦是使用者不希望看到的。数据库的建设一方面需要包涵充足的资源,另一方面要加深文献标引和文献间知识关联的挖掘,为科研人员提供可操作的知识发现平台。

1.肖沪卫.专利地图方法与应用.上海:上海交通大学出版社,2011:337-338

2.汤梅.主要国际性学术搜索引擎的比较分析.中国科技期刊研究,2011(3):385-387

3.L.Ermann1,A.D.Towards Two - dimensional Search Engines.Journal of Physics A,2012(27):275-297

4.Qinghua Zhu.Using a Delphi method and the analytic hierarchy process to evaluate Chinese search engines A case study on Chinese search engines.Online Information Review,2011(6):942 -956

5.Koutsoudis,A .3DSSE -A 3D Scene Search Engine Exploring 3D scenes using keywords.Journal Of Cultural Heritage ,2011(2):187 -194

猜你喜欢
标引字段全文
浅谈台湾原版中文图书的编目经验
档案主题标引与分类标引的比较分析
题名与责任说明附注字段用法分析
青年再造
发现“西方中医”
反腐
来信
大数据时代数字资源的主题标引研究
关于关键词标引的要求
关于关键词标引的要求