学者知识库建设探究*
——以深圳学者知识库为例

2019-01-10 03:00闫伟东深圳大学城图书馆广东深圳518055

图书馆建设 2018年12期

闫伟东（深圳大学城图书馆广东深圳 518055）

1 引言

2017年10月18日， OCLC和欧洲国际研究信息组织（euroCRIS）建立战略合作伙伴关系，通过合作研究来认识和了解国际科研信息管理（Research Information Management，简称RIM）实践。科研信息管理是关于机构研究活动信息的汇总、管理和利用。而科研信息管理系统则是实现科研信息管理的支撑系统。OCLC副总裁洛坎登普西（Lorcan Dempsey）在2014年的一篇博文中，将科研信息管理系统视为图书馆潜在的新服务类别[1]。马莉吉文斯（Marlee Givens）等认为科研信息管理系统与学者档案系统（Faculty Profile Systems）密切相关，甚至是同义词[2]。学者档案系统（Faculty Profile Systems）是对机构学者的学术研究成果、学术活动等结构化数据进行收集、存储和管理，旨在以各种方式重新调整和应用这些信息，国内又称之为学者知识库。学者知识库能全面准确追踪学者的学术轨迹，提升学者学术影响力，建立学者的学术声誉，对于促进学术交流和科研合作等方面具有重大意义，因此国内外众多的机构纷纷建设自己的学者知识库，如明尼苏达大学的Experts@Minnesota、杜克大学的Scholars@Duke、台湾大学的学术库（Academic Hub）、清华大学的学者库等。相对于国外的机构而言，国内对于学者知识库的建设和服务，还处在起步阶段。

2 图书馆参与学者知识库建设的意义

学者知识库是以学者为中心对学者的学术成果、学术活动等数据进行收集、存储和管理，涵盖机构内设部门的人事数据、科研项目数据以及像Web of Science、Scopus等外部数据源的数据，通过学者知识库将分散分布于机构内外不同部门、不同系统中的结构化和非结构化数据进行高效地整合，并通过可视化的统计及分析功能满足众多个性化的需求。拥有丰富的信息管理专业知识及数字资源建设经验，在长期的服务过程中，逐渐成为学术生态系统的重要组成部分，也成为了教师和学生可信赖的合作伙伴，图书馆应利用这些优势参与机构学者知识库建设与服务，融入学者的科研过程，帮助其更好地管理学术成果，增加其学术影响力。

2.1 使图书馆成为机构知识创造过程中的一环

研究型图书馆的生存和发展，取决于其能否成为所在机构知识创造过程中的一环[3]。在数字化的环境下，机构科学研究的本质及模式发生了很大变化，为了应对这一变化，图书馆应重塑其服务的本质，在管理机构的科研产出方面发挥越来越大的作用，并努力成为本机构知识创造过程中必要的一环。科研信息管理为图书馆提供了这样的机遇，图书馆通过参与机构科研信息管理来保存和发现本机构的知识产出并扩大其辐射范围，以支持机构的使命、目标和愿景。虽然众多的研究指出，在机构的科研信息管理中，图书馆是最理想的合作伙伴，也可能是最理想的中心[4]，但实际上目前图书馆往往又不是机构科研信息管理中被认可的关键合作伙伴[5]。如果图书馆不积极参与并提供这些服务，将进一步削弱图书馆作为研究过程中重要伙伴的形象。因此，图书馆应积极承担机构科研信息管理的职责，并以机构学者知识库建设为契机，努力成为机构知识创造过程中重要的一环，从而赢得整个机构对图书馆的认可和尊重。

2.2 建立与学者沟通交流的渠道

学者知识库建设为图书馆提供了与学者深入沟通交流的渠道，图书馆在参与学者知识库建设的过程中，必须与机构相关学术部门更紧密联系；要想准确梳理学者的研究成果，也必须与学者密切合作；为使学者知识库项目的顺利实施，图书馆也必须承担好面向学者的培训及支持的角色，在这一过程中，图书馆员也增进了对于不断变化的研究环境的理解，并从中寻找新的机会，为学者提供更有价值的服务。图书馆通过参与学者知识库建设进一步拉近了图书馆与学者的距离，搭建起了学者与图书馆良好互动的桥梁。

2.3 促进图书馆机构知识库服务升级

长期以来，机构知识库仅以提供出版物存储服务为主，难以引起学者的兴趣，利用率较低。学者知识库为机构知识库提供了升级转型的机会，将学者知识库服务嵌入机构知识库可以提升研究人员对机构知识库的兴趣[6]。学者知识库建设可以整合现有的机构知识库及其功能，通过学者知识库与机构知识库的互操作，将学者知识库中书目数据、科研项目、出版物信息等不同类型的元数据自动导入机构知识库，实现科研信息数据的自动收割、及时更新，机构知识库结合学者知识库的运行，可以使得更多的科研成果被开放、被发现、被获取，同时，结合学者知识库所提供的多元化服务，可以吸引学者使用机构知识库。当然，机构知识库也是学者知识库的互补平台，国外很多学者知识库是依托本机构的机构知识库而建，如杜克大学的Scholars@Duke。

3 深圳学者知识库建设方案

3.1 建设目标及功能需求

表1 深圳学者知识库功能需求

深圳大学城图书馆于2016年开始着手建设深圳学者知识库，其功能需求设计如下页表1所示，深圳学者知识库旨在全面揭示深圳学者的科研成果，为深圳科研、创新、创业提供学术交流、沟通和共享平台；展示深圳高校和科研机构的学术成果，增强深圳高校和科研机构的学术影响力；分析和评价机构的研究方向、趋势和成果，评估和掌握本机构内各成员的学术研究水平；寻找与自身研究领域相同或相近的学者，增大彼此之间区域内的合作机会；实现学者与图书馆学科馆员的无缝连接，及时获取图书馆提供的学科服务。

3.2 系统架构设计

深圳学者知识库建设的整体思路为：从主流数据源中采集元数据，然后对这些异构数据进行同构、合并和去重并构建论文库、专利库、项目库，再与学者列表和成果信息进行匹配构建学者的成果库，进而将学者的成果库与学者个人主页或个人简历信息进行关联，对学者研究兴趣进行挖掘分析，进而构建学者知识库，并将学者及其学术成果在机构维度进行聚合及展示。深圳学者知识库系统架构如图1所示，包括4个层次：第一层是数据资源获取与集成层，重点实现论文、专利、技术报告、学术活动信息、学者信息等数据资源的整理与集成。第二层是数据资源存储层，该层以图模式存储所有数据资源，建立数据资源之间的关系网络。其中论文、专利、学者是图1中3种类型的顶点，而他们之间的连边则构成多种关系，为快速高效检索相关资源及深度知识挖掘奠定基础；第三层是核心算法层，该层提供如分子图、概率图、主题模型等图模式检索算法及基础数据挖掘算法，并提供标准算法接口，为深度数据挖掘及开放算法接口奠定基础。核心算法层也提供数据检索、学术评价等算法。第四层是应用层，该层在算法层的基础上提供学术活动分析、专家发现及研究人员档案及关系网络分析等核心功能，同时建设开放式应用平台，为后期开放系统接入更多第三方应用奠定基础。

3.3 数据建设方案

国内外众多机构科研信息管理系统多采用数据自动采集和人工提交相结合的模式，即在支持手动提交学者科研信息数据的基础上，趋向于学者科研成果的自动收割、自动去重、自动入库的数据获取模式。深圳学者知识库也采用这种主流的数据采集模式，同时，为了确保系统数据质量，对于自动抓取的数据，须经人工审核后才能入库。学者也可以基于自身的具体需求，采用手动提交或批量导入的功能及时将本人最新的科研成果提交入库。在实际的建设中，由于学者可能跨越多个工作机构，为了弥补机器自动抓取同一学者在多个工作机构的科研成果数据准确性较低的问题，深圳学者知识库的数据建设分为两个阶段，第一阶段是纯手工阶段，基于学者的简历，将学者当前及以前工作机构的科研成果经手工检索、清洗、去重后并批量导入深圳学者知识库平台；第二阶段是采用自动采集为主、人工提交为辅的数据采集模式，该阶段的数据自动采集由于仅采集当前工作机构的数据，使数据的准确性得到了提高和保证。

图1 深圳学者知识库系统架构图

3.4 关键技术

3.4.1 信息抽取及学者本体构建

深圳学者知识库的学者本体是通过扩展FOAF（Friend of a Friend）本体模型的方式来实现的，在学者本体中，定义了2个概念、26个属性和2个对象关系，其中属性包括：学者基本信息、教育经历以及学者研究成果。学者本体构造的思路为：首先通过搜索引擎用其姓名做关键词搜索相关网页，然后通过信息抽取算法从该网页抽取学者的个人信息，构造学者本体的实例。具体而言，分为以下几个步骤：页面识别、预处理和信息标注。在页面识别中，给定学者的姓名，通过搜索引擎得到一系列网页。然后，通过训练一个分类器来判定这些页面是否是给定学者的个人主页或者包含很多学者信息的介绍性网页，然后把确认的网页URL作为个人信息的属性Homepage的值。预处理则首先把网页文本分成一个个不同的类别令牌，其次，给不同类别的令牌设定不同的标签，标签的类型对应个人信息的属性，即Position、Afliation、Email、Address、Phone、Fax等，令牌形成基本单位，页面形成单位序列，对个人信息的语义标注就可以通过对令牌的标注实现。在标注中，给定一个单位序列，通过训练标注模型来确定最可能对应的标签序列[7-8]。

3.4.2 深圳学者知识库学者姓名消歧

在数字知识服务的大背景下，消除文献中作者姓名歧义、准确定位目标学者及其研究成果、解决学术界的“Who is Who”问题迫切且必要[9]。姓名消歧的方法通常有以下几种：一是手工清洗方式，手工检索学者完整的书目记录，必要时增加对全文文章的检查，并与其他信息来源进行比较，如个人网站、个人简历等，这也是最准确的方法；二是利用智能算法进行姓名消歧，建立目标学者与文献之间的关联；三是注册机制，学者通过注册建立个人姓名与文献之间的关联，如ORCID、ResearcherID等，但学者是否积极参与注册会对注册系统的推广产生影响[8]。深圳学者知识库一期建设时的姓名消歧是综合方法一和方法二，第二期建设时会将注册机制融入进平台之中。深圳学者知识库姓名消歧的自动化算法采用了基于约束的概率模型，利用隐马尔可夫随机场（HMRF）理论构造一个目标函数，将姓名消歧问题转化为最小化目标函数问题。具体而言，给定一个人名为a，让所有包含该作者的出版物命名为 P = {p1，p2，...，pn}。假设现有 k 名实际研究人员 {y1，y2，...，yk}有姓名a，任务就是把这n个出版物分配给他们真正的研究人员yi。消歧问题是为每篇论文分配一个标签，每个标签代表一个实际的研究人员yi。目标函数定义为给定论文x的研究者标签y的条件概率：

其中D（xi，yk）是论文xi和研究者yk之间的距离，D（xi，yk）是论文 xi和 xj之间的距离；Ck（xi，xj）表示xi和xj的约束；wj是参数；Z（x）是归一化因子。用基于期望最大化（EM）的方法来学习该模型中距离函数D（）的参数[10]。

3.5 多层次服务体系构建

学者对于科研信息管理系统的期望包括：最大限度地减少数据重复维护的时间，支持科研信息数据互操作；确保其科研成果被发现，以增加其学术影响力；可以向同行和项目资助机构展示他们的学术贡献；增加研究基金资助机会[11]。基于此，深圳学者知识库确立了以学者为本的建设原则，以为学者、为学校搭建多层次服务体系为目标，全面准确跟踪、揭示学者的学术研究轨迹，为学者搭建学术交流、合作和共享平台。深圳学者知识库与学校统一认证实现了无缝对接，学者在登录状态时可以自行维护自身的科研成果，完成成果提交、认领、纠错、设置文献显示与否等操作，也可以委托图书馆员和学院科研秘书完成上述操作，深圳学者知识库实现了学者全学术生命周期科研成果汇集及揭示，同时提供了论文被引频次追踪、总被引次数累加、H指数、科研合作分析、相似论文推荐、专家搜索与推荐、研究兴趣挖掘、成果浏览次数、学术成果评价等。同时对于机构管理者而言，通过本平台可以及时了解本机构及学者的学术成果及学术影响力，为学者晋升、任期评聘提供客观的数据支撑。同时，深圳学者知识库的多元数据统计报表功能为驻大学城各高校的办学绩效提供详实的数据。

4 关于学者知识库的建设思考

4.1 沟通和合作至关重要

学者知识库建设涉及众多利益相关方，有人力资源、科研管理、教务管理、信息技术、图书馆等部门以及学生、学者，不同的单位及个体对学者知识库有着不同的期望，要使所有利益相关方都能接受并利用系统，在系统建设的过程中，作为项目协调方的图书馆或者其他单位，必须切实认识到沟通和合作对于项目成功的重要性，从观念上认清项目仅仅通过图书馆或者其他单一部门是不可能取得成功的，各相关方对项目也要有统一的共识，并能认识到合作是项目成功的前提，项目协调方自始至终都要与所有利益相关方保持持续及有效的沟通和交流，让所有利益相关方深入地了解系统并参与到项目的建设中来。深圳学者知识库在建设过程中，深圳大学城图书馆保持了与各校图书馆、学校人事处、科研处、信息技术等部门的持续沟通，走访了多名学术带头人，了解各方对于深圳学者知识库的期望，并向各方介绍深圳学者知识库能够给各方带来的好处，引导各方在各自的业务中支持、接受及使用学者知识库。

4.2 领导支持事半功倍

学者知识库建设涉及众多的利益相关方，项目成功需要众多部门和个体的贡献，项目如果能自始至终得到顶层领导的支持，将对整个项目大有裨益。领导的认同和支持不但能为项目建设带来资金的支持和资源调配上的便利，而且更有利于各利益相关方的协调与合作，更重要的是能为学者知识库建设与未来可持续发展带来相关机制及政策的出台。例如，杜克大学的学者知识库项目Scholars@Duke自始至终都得到了学校校长、教务长、各学院院长的大力支持，共同推动Scholars@Duke建设与完善[2]。为了能取得领导对学者知识库项目的支持和认同，学者知识库项目建设团队应不遗余力地向学校领导、学院领导宣传学者知识库，也可以选一批有影响力的学术带头人，通过与他们细致入微的互动以及学者对平台切身的体验，提升他们对平台的兴趣并献身说法，从而间接地影响到机构领导，以进一步增加机构领导对平台的认同。

4.3 学者参与是成功关键

对比科研信息管理系统与机构知识库，研究人员对科研信息管理系统的兴趣比对机构知识库兴趣更大，科研信息管理系统对他们来说更重要[6]。因此，作为科研信息管理系统的学者知识库要以人为本，特别是以学者为中心，在学者知识库建设上更要注重学者的参与，学者参与是学者知识库系统取得成功的关键[12]。研究信息数据处理和质量保证需要一定的成本，虽然对科研信息进行自动挖掘、提取、消除歧义和聚合，可以减轻一些成本，但或多或少仍然需要学者的参与。学者知识库建设团队一定要让学者认识到学者知识库平台的价值和重要性超过了他们参与和贡献的时间成本。学者可以协助学者知识库建设团队提交或审核个人研究成果，以及常规性的个人页面的数据维护，使自己不仅仅是研究信息的提供者，更成为自身研究信息的管理者，使自己的研究成果信息在平台上全方位展示的同时，进一步提升自己的学术影响力。

4.4 务实的态度，渐进式发展的理念。

国内外学者知识库建设实践表明，学者知识库建设是一个相对复杂的系统工程，依赖众多人的参与，项目从规划、设计以及实施需要很长的时间，并且是一个渐进的过程，要一步一步地走，绝对也不可能一蹴而就。并且在项目实施的过程中，学者知识库的众多利益相关方可能会不断增加对学者知识库的预期及功能需求，因此，试图在短时间内推出一个完整的系统可能会导致对某些利益相关方服务水平的降低，反而造成他们对学者知识库不好的第一印象，甚至成为固有印象，有了不好的第一印象后，对于未来学者知识库的建设与发展十分不利，甚至是致命的。项目建设要秉承渐进式发展理念分阶段实施，每一阶段都设定一个期望值并且是可以超越的较低期望值。作为学者知识库建设方的图书馆需要向所有利益相关方传递这样的信息，即系统会有个渐进式发展的过程，并且系统在推出之初可能不能满足所有功能需求。

4.5 数据质量是前提

对于学者知识库而言，确保研究者身份元数据的质量是研究人员使用科研信息管理系统并在其中建立个人学术档案的动机之一[13]。只有提高了学者知识库收录数据的质量，确保了学者科研信息数据的完整准确，才可以真正反映机构及学者的学术地位和学术影响力，进而增加机构及学者的学术知名度，吸引学者去使用学者知识库并愿意去管理和维护自己的学术档案。中国作者的英文重名比外国人重名严重，辨识也更加困难，即便有了一些智能的算法，但能在海量的信息资源中将属于该学者全学术生涯的科研信息数据准确地归属到该学者的名下，也并不是一件容易的事情，并且如果该学者在学术生涯中跨越了多个工作机构，识别的难度将进一步增加。因此，当像ORCID等的身份识别码在国内学者中还没完全大规模使用的今天，为了确保学者知识库数据的质量，机器识别的同时，还需要人的参与，需要学者、图书馆员或其他人对机器识别出来的数据进行进一步的审核确认。

4.6 宣传推广是成功保证

学者知识库平台高质量建设固然重要，但其宣传与推广对于其可持续发展也十分关键，应通过宣传和推广来让更多的人了解和使用学者知识库，让学者了解到学者知识库对他们的意义所在，从而使他们真正参与到学者知识库的建设和发展中去。例如，杜克大学在建设学者知识库Scholars@Duke时，作为项目参与方的杜克大学图书馆经常通过召开相关会议、拜访学校及各院系部门领导、拜访学者、在学校网站撰文等方式来宣传Scholars@Duke的作用与意义，寻求各界的支持。在宣传方法上，学者知识库宜采用自上而下及自下而上结合的方法，在宣传语言的使用上，馆员应该把重点放在学者的目标实现上，而非是图书馆自身目标的实现，馆员不应该重点讨论如何让学者提交他们的学术成果，而是重点讨论通过学者知识库，可以促进学者的学术成果交流，提升他们的学术影响力，让学者感受到他们对自身科研信息数据及其构建过程有利害关系，并能让学者感受到拥有这些科研信息数据和花费时间来维护对他们大有裨益。

5 结语

科研信息管理系统作为图书馆潜在的新服务类别，正成为图书馆及其利益相关方密切合作的学术交流实践的一部分。作为科研信息管理系统的学者知识库通过对机构学者的学术研究成果、学术活动等数据进行收集、存储和管理，增强学者学术成果的可发现性，促进学术交流，提升学者学术影响力，从而受到越来越多图书馆的关注。深圳大学城图书馆通过与深圳兄弟馆、学校相关部门、教师等合作共建的深圳学者知识库，多维度展示深圳高校及学者的科研成果，促进了学术交流。未来将基于学者和学校管理层的需求进一步完善平台功能，协同各高校出台相关的政策机制，以促进深圳学者知识库的可持续发展。

学者知识库建设探究*——以深圳学者知识库为例

1 引 言