索引的本质属性及其在学术规范与评价中的作用

2023-04-23 11:57叶继元
图书情报知识 2023年6期
关键词:学术规范数据库

叶继元

1 引言

1928年我国图书馆学界和文史哲学术界曾兴起“索引运动”,其实质是要提高学习和研究的效率。自此索引的重要作用被学界和社会逐渐认识。索引是检索、统计、分析信息的利器,是图书情报学研究的核心内容,而“现代的索引就是数据库”[1]。凡是在学术研究,乃至于工作、生活方面遇到查找信息、知识点困难的时候,索引和数据库都大有用武之地。然而,虽然文献信息不断增多和用户需求不断增加,但目前对国内各种索引、数据库的编制仍然相对不足,不能满足用户的多样化、快速、准确检索信息与知识需求。要编制更多更好的索引和数据库,首先要厘清对索引本质的认识,澄清对索引工作的一些模糊认识,在大量索引实践的基础上抽象出索引理论,以便更好地指导索引实践,实现理论与实践的良性互动。同时应清醒认识到,加强对索引这一图书情报学研究的核心内容的研究和实践,对于坚守图书情报学的核心领域或内容,适度扩展到相关学术领域或公共学术话题,具有十分重要的意义。

学术规范与学术评价是国内外学术界、教育界、管理界等十分关注的公共学术领域。这两个领域与图书情报学中“规范文档”和学术文献的采集、评价和筛选等的研究有密切关系。研究索引及数据库与学术规范及评价的关系,探讨二者相互促进、良性发展的途径,对于图书情报学/信息资源管理一流学科的发展,扩大学科影响力,无疑具有重要价值。

2 文献综述

经文献调研,尚未发现论述索引、数据库与学术规范、评价的关系,或对索引的理论进行专题研究的论著。有几篇题名涉及“索引理论”或“索引原理”的文章,其研究内容属于哲学、语言学、信息系统或经济学范畴,或没有论述“原理”“理论”本身,仅涉及索引的概念和定义;例如,《以索引性理论探讨地方特色产品在旅游地行销中扮演之角色》[2]。零星几篇提到“索引词的理论”的文章,如《索引词理论:一个哲学逻辑视角》[3]。有的则是“索引系统的原理”,如《PRECIS索引系统的基本原理、功能和应用》[4]。但现有研究没有深入论述“索引理论”本身。

在国内图书情报学、文献学界,有些论者提出过“索引学”或“索引学科”,但在各种规范性词典或专业工具书中难觅踪迹(刚发现新近出版的《中国大百科全书:第三版.图书馆学》中已有“索引学”词条),似乎没见到以“索引学”为书名的专著。著名学者加菲尔德先生曾出版过《引文索引法的理论及应用》,在第一章引文索引法的概念里,并没有涉及索引和引文索引的“理论”[5],著名情报检索语言专家张琪玉先生在一篇文章中也列出过章节题名“索引原理在其他领域的应用”[6],但仔细看全文,发现所述“理论”和“原理”的阐述很简约。这说明索引学是一个新兴的、尚在发展的、有待同行形成共识的学科。索引学涉及到语言学、逻辑学、知识分类学、信息管理系统等学科。按照张琪玉先生的观点,如果要研究“索引学”,不要研究太广,与其他学科交叉的不重点研究,索引的基本原理、基本方法和技术则是研究重点。

从上可知,研究索引与学术规范、评价的关系具有现实性、新颖性和学术性。研究索引的本质属性,探讨索引及数据库在学术规范与评价上的适当作用,对于充分发挥索引、数据库的功能,准确理解同行专家评价法在学术规范和评价上的主导作用和文献计量法的辅助、校验、确认等作用,具有重要意义。本文利用概念分析法,研究索引、数据库、引文的本质属性。利用典型案例分析法,分析各类型索引、数据库在学术规范和评价上的作用,尤其注重对学术创新这一基本规范的识别与评价,为学术规范与评价研究提供新的思路与路径。

3 索引的本质属性探讨

什么是索引?索引与目录的主要区别在哪里?许多教科书或工具书并没有明确说明,或语焉不详。网上一些解释或比喻,也不准确,甚至有误导。要解决这些问题,认清索引的本质至关重要。

所谓本质属性就是一事物区别于另一事物的最重要的个性特征。例如,目录与索引都是检索工具,也都是信息统计、分析的工具,都是款目的集合,都需要排序,这些是二者的共性。但能深入到文献或信息资源集合的内容进行不同程度的标引,注明其出处,异于源信息集合的排序则是索引的个性,或曰“本质属性”,因为目录不具有这些特征。目录是汇集一组文献或信息资源,著录其责任者、题名、出版者等事项,形成款目,按一定方式排序的检索工具。而索引,一定要从源文献中抽取词或词组,甚至句子,加上注释、出处等,形成款目,其排序一定与源文献的排序不一样。概括说来,源文献抽取、出处、“异排”(“异排”是本文作者首次用来概括索引一个独特性的语词,是指不同于源文献的排序,如源文献正文的排序是分类,则索引的排序一定是主题、作者、题名排序,不能是分类排序)是索引区别于目录等类似检索工具的“本质属性”。用专业术语也可以抽象出索引的概念模型:

源文献或信息集合-抽取-索引项(词、参照)-排序-出处指向-连接-源文献或信息集合。例如,《全国中文期刊联合目录》著录了几万种期刊的编者、期刊题名、创刊时间等信息,按分类排序,这是目录。可以将这个目录看成是“源文献”,从每个期刊款目中抽出编者、题名等,注出出处页码,按名称的字顺排序,就形成了《全国中文期刊联合目录》的“名称索引”。

又如,将数千种报刊(源文献)中的文章篇名抽取出来,著名文章发表的出处(报刊名称、卷、期、页码),并按照异于源文献的次序排列,这就是文章篇名索引,如《全国报刊索引》。尽管有些论文篇名索引被称为“题录”,但这“题录”不是目录,而实际上是索引。

近期有些同行争论,某大型商场各层楼商品导航或指南是否是“索引”的问题。按照上述索引的本质属性来分析判断,也很容易澄清这个问题。如果只是注明各层楼有哪些商品,按照楼层次序排列,则这个指南不是索引;如果将这个指南中的各种商品名称一一抽出、标引,按照商品名称字顺排列,注出其出处(几层楼几区等),则这个就是商品索引。

网上360百科认为“索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。”[7]这里的“目录”,实际上是指一本书的“目次(contents)”,目次不同于目录(catalogue/bibliography)。目次中是有表明章节的页码,但其排序却与源文献的排序一致,故目次不是索引。“异排”是指“异于原文献的排序”,这是索引区别于目录、目次的一个重要特点。360百科将索引比喻成目录(目次)是不准确的,表明词条作者对索引的本质缺乏认识。

张琪玉先生认为现代的索引就是数据库,理由是索引以数据库形式出现,其应用面更广。数据库在功能上相当于传统索引的一个索引体系。数据库推动了索引编制技术的发展,特别是自动抽词、自动赋词、赋分类号等技术。推动了加权检索、截词检索、模糊检索等检索方法。还推动了索引用语言(情报检索语言)的创新,最重要的是索引语言的组配化和自然语言的应用[1]。

我认为,张先生的观点是极有价值的,既充分肯定索引的价值,又明确了数据库的重要性,将索引与数据库有机联系起来,对于大力倡导编制各种类型的索引或数据库很有助益。数据库是记录的集合,每条记录又是字段的集合,各种可检字段都可以生成一个索引。数据库的检索原理实际上是索引原理的发展。

在关系数据库设计者看来,索引就是数据结构,其特点是能排序、快速查找,不需要全面扫描,排序后仅扫几次即可,能提高数据检索的速度。数据库在功能上相当于传统索引的一个索引体系。因为数据库包含许多字段,有的字段相当于文献款目的各种著录事项,而另一些字段相当于文献的各种检索标识项(诸如分类号、主题词、题名、责任者等),这些字段对各文献款目都可以生成一个索引,通过这个索引可以对数据库相关内容进行检索,也可以对相关字段直接检索。一个含有分类号、主题词等字段的数据库相当于有了分类索引、主题索引等索引体系。因此从功能上说,数据库具有传统索引的全部检索功能。正是从这个意义上说,现代索引就是数据库。当然数据库的检索功能更为强大,数据库是比传统索引更为高级、先进的索引,二者不能完全等同。随着计算机技术应用的普及,目前编制大型索引均为计算机编制,故许多索引都命名为“某某索引数据库”。为行文方便,下文中提到的索引,如不特别申明,均指传统索引和现代索引——数据库。

关于索引的原理,张琪玉先生曾认为:索引是对某一文献集合(如期刊)中所包含的各篇文章,或某种文献(如专著)中所讨论的各个局部主体和所述及的具有信息价值的各个事项(如人物、机构、地区、事件、生物、矿物、设备、工艺、方法、公式、数据、著作等)以简明的方式分别著录标引,即确定其检索标识和指出其所在位置,并将款目按一定的可检顺序排列和组织,以方便检索的一种工具[6]。

从以上原理的论述中可以看出,索引原理来源于索引的概念或定义和功能。

国家标准《索引编制规则(总则)》(修改稿)对索引有以下定义:指向文献或文献集合中的概念、词语及其他项目等的信息检索工具,由一系列款目及参照组成。而索引款目则是:对某一文献或文献集合的主题内容、涉及事项或外部特征加以描述的记录,是索引的基本单元。款目由标目、注释、副标目及出处组成。部分索引款目还带有附加信息。索引的功能除提供文献线索、节省文献调研时间等外,有调查和核实学术成果,统计、分析文献被引用情况,进行大范围的文献普查、利用等,还有文献考证、文献鉴别、古籍校勘、古籍整理等,用作语言学、目录学、文化史、科学史、文献计量学、科学计量学等研究的手段和工具。辅助查明某项发现、发明、理论、原理、方法等的优先地位或二次发现。或发现研究中的空白点或可能的生长点。这些功能与学术规范与学术评价有密切的关联。

从索引的原理,我们可以推出以下一些命题。

推论一:对任何一个较大信息资源集合,总可以根据查找需求,将该集合中的特定元素或事项标引为索引项(标目)。这就是说,万事万物皆有信息,故皆可索引。商场层楼商品索引,索引项、出处标引理论上都可以多标,但在实际上,都应根据查找的需求来标引,标引应该适度。

推论二:索引项必须有序化,且有出处或位置符号。如果“异排”是一个特点的话,那么可以将“异排”增加上去,即:索引项必须有序化,异于原排序,且有出处或位置符号。

推论三:索引来源于信息资源集合(索引源),但不等于集合本身。信息资源集合是索引的源泉,索引仅是指向信息资源集合的线索或路径。

推论四:索引指向信息资源集合中的内容,但不等于内容本身。

从以上四个推论就可以引申出引文索引、评论索引仅仅是“辅助学术评价与规范的作用”的结论。这些作用包括:对研究成果可以查新、认证、普查、统计、分析、排序等,并不是直接对研究成果质量的评价,尽管引文数据等能在一定程度上反映内容,或与质量有正相关性,但毕竟不能等于内容的质量评价,它仅对评审专家有参考、辅助作用,不能代替同行专家的评价和判定。因此,在学术评价上将“SCI至上”是有害的。本文在下面还会论及这个问题。

因此我们可以说,索引充分体现了“省时法则”:索引是省时高效查找信息、知识的利器。同时它还是一个有效的计量工具:索引的来源信息越多,数据越大,计量分析越有价值。在信息社会,具有“索引意识”“索引思维”极为重要,也是信息素养的一个重要组成部分。只要查找信息、知识感到不方便,那立刻就应想到“索引”,这就是“索引意识”。而后马上思考如何能标引和有序化,怎样才能省时高效标引和排序等,这就是“索引思维”。

4 索引/数据库在学术规范中的作用

2001年笔者通过招标承担教育部的哲学社会科学研究学术规范研究项目,起草“规范”,经过各校多位专家讨论、修改,教育部社会科学委员会通过,教育部于2004年颁布《高等学校哲学社会科学研究规范(试行稿)》,被同行誉为“首部中国学术宪章”。2005年笔者出版国内首部《学术规范通论》,首次对学术规范下了定义[8],2017年再版。2011年又承担教育部重大项目《学术规范和学科方法论研究》,主编出版了文科11个学科的规范与教育丛书,诸如在《图书馆学情报学学术规范与方法论研究》“总序”中指出:人文社会科学各个学科“对学术规范达到的目的、所起的作用或功能、所包含的最基本内容等的认识还是大同小异。”[9]。

所谓学术规范是指学术共同体根据学术发展规律参与制定的有关各方共同遵守的、有利于学术积累和创新的各种准则和要求,是整个学术共同体在长期学术活动中的经验总结和概括。包括学术研究基本规范、研究程序规范、研究方法规范、论著撰写规范、责任者署名规范、论著引用规范、论著呈现规范、学术评价规范、学术批评规范。规范是手段,创新是目的,手段围绕目的而变化,只要有利于学术创新,不适宜的规范就必须修改。遵守学术规范,就是讲究科研诚信,反对学术不端(故意之行为,如剽窃、篡改、伪造、虚假署名、虚假信息、买卖论文、代写等)、学术失范(无意之行为,如不会引用、论文格式混乱、图表无标题和编号,选题空洞、没有学术史回顾、缺乏论证、文摘、关键词不规范等,自然科学称之为“科研不当”)。发现、确证学术不端行为后,就必须处理;而发现失范或不当行为,则主要是教育。二种行为的性质及其处理方式必须分清,否则会影响学术的健康发展。学术研究基本规范,诸如合理质疑、批判性思维、创新性思维、独立思考、学术平等基本规范是“纲”,责任者署名规范、论著引用规范等技术性规范是“目”,“纲举目张”,基本规范最为重要,适用于文理各学科的研究。换言之,内容规范是“纲”,形式规范是“目”。以学术论文为例,其形式规范包括题目文字的多少、章节的标记符号、文摘、关键词、参考文献/注释、图表、措辞等规范。而内容规范是指选题、综述、观点、方法、论证(事实、数据)、结果/结论等每一步骤的规范。形式规范是底线,内容规范是关键,论文要有新意,能分析问题、解决问题,这是最重要的规范。

编制索引/数据库的作用主要体现在以下几个方面。

4.1 有利于提高文献内容质量

编制有关文献内容的索引,可以核对核心概念、术语的规范度,通过参照统一词语表述,行文规范和统一性校对;通过主题(有关学术观点、研究方法、研究结果和结论的主题词)初步判断论文的水平和质量。通过对《马克思主义理论学科学术规范与方法论研究》《图书馆学情报学学术规范与方法论研究》《政治学学术规范与方法论》《语言学学术规范与方法论研究》等11本丛书编制书后索引,可以规范术语等内容表述,提高了丛书质量。又如,通过为博士论文编制索引,尤其是对论文创新点进行标引,能够凸显论文遵守内容规范,尤其是基本规范的情况。再如,编制题名索引对不当重复研究、重复发表的文章的查证(一稿多发问题);数据库对抄袭认定的辅助(“翟天临博士论文抄袭事件”);学术年表式索引的查新功能(首发权的认定、注册),可以辅助查明某项发现、发明、理论、原理、方法等的优先地位或二次发现,或发现研究中的空白点或可能的生长点,重组文献知识体系(学术创新是基本学术规范,文理科皆然)。

4.2 有利于“辨章学术、考镜源流”

张琪玉先生于2001年就提出编制“学术年表式索引数据库的设想”,以实现“辨章学术、考镜源流”中国传统目录学理论的精华。在文献题录/索引基础上,增加“时间(发表时间或发生时间)”“学术事件说明(仿照年表叙述方式)”两个字段,按照时序揭示某一学科、专业、专题、主题领域的文献及其在该领域发展史上的贡献[10],对学术规范(学术史文献综述)和学术评价有重要作用,且能起到分类、主题索引不能起到的功用。

4.3 有利于科研诚信建设

引文索引、评论索引对引用经典、切题引用文献、他人研究成果的评述或验证,查看引用文献和文献综述的合理性均有作用。有的查询可直接核实,有的查询则可指引专家聚焦判断。包括“智能查重”,文献是否为抄袭,最终需要专家定夺,不能由查重系统(数据库)“一刀切”。

5 索引/数据库在学术评价中的作用

索引在学术评价上的辅助作用学界讨论很多且已有共识,比较好理解,辅助作用不能扩大化,变成“唯”,就片面化了。

学术评价是评价主体根据一定的目的和标准对评价客体进行的价值判断。包括学者评价、机构评价、媒介(期刊、报纸、网站等)评价、成果评价(出版前评价与出版后评价)等。对于成果评价来说,有成果出版前评价:投稿评价、项目评价、学位论文评价等;成果出版后的评价则有期刊评价、图书评价、论文评价、学者评价等。学术评价的原则有目的性;定性定量相结合;分类评价;质量评价;三公(公开、公正、公平);相对性评价。2010年笔者及其研究团队首次提出了学术“全评价”体系论[11],2021年又推出专著《学术“全评价”体系论》,明确概括了学术“全评价”体系就是“六大要素”“三大维度”“若干推论、解释和运用原则及规则”[12]。近年来学界、期刊界有不少报道、转载、引用、评论。该评价体系与近期国外的《旧金山宣言》《莱顿宣言》的一些观点不谋而合,且提出时间更早、逻辑性、易记性稍强。与近期中央有关评价中反“四唯”“五唯”的精神相契合,为其奠定了学理基础。学术“全评价”体系论已被学界应用于期刊、图书、论文、网站、学者、馆藏文献评价等方面。所谓学术“全评价”体系,概括言之,就是六大要素、三个维度、若干推论,全方位、全要素、全过程评价。六大要素是指评价主体、评价客体、评价目的、评价方法、评价标准及指标、评价制度。三大维度是指形式评价,内容评价、效用评价。由浅入深,层层递进(三个维度阶梯论)。若干推论是指评价目的制约论、同行专家主导论、评价客体细分论、评价指标可采论、评价方法适度论、评价制度保障论、计量方法与专家方法互补论等。形式评价一般为简单评价,质量评价主要是内容评价和效用评价。

5.1 有利于辅助查明学术新贡献

利用各种索引,尤其是综合性、收录文献较为全面的索引数据库,可以辅助查到学者、机构等的研究新成果,诸如某个新概念、新观点、新方法、新资料、新理论等,并可以快捷、方便地确定知识产出的优先权,从而确定学者、机构的学术新贡献。

5.2 有利于定量评价学术影响力

利用各种引文数据库、学术评论数据库、观点创新索引数据库等,可以查到研究成果及其作者、作者所在的机构、地区、国家等的分布情况,并可通过知识图谱给予形象描述,通过数据的统计和分析,可以从一个侧面测度研究成果及其作者、机构等的学术影响力。近几十年来这方面的研究成果丰富,已形成文献计量学、科学计量、信息计量学、网络计量学(含Altermetrics)等新领域。

5.3 有利于辅助评价学术质量

由于引文索引数据库等的出现,其利用变得非常方便,于是以引文为代表的计量评价法应运而生。不论是SCI、SSCI、A&HCI、SCOPUS,还是南京大学编制的《中文社会科学引文索引》(CSSCI)、《中文学术图书引文索引》(CBKCI)、《中国智库索引》(CTTI)、《中文学术评论索引》(CARI)、《中文人文社会科学集刊引文索引》等等,除了检索作用外,亦有统计、分析学术影响力的作用(影响力不等于质量)和辅助评价质量的作用。从几十年学界对其评价作用的争论就可知道其作用。有的院士几十年前就要求废除SCI,但至今没有落实。其中一个主要原因就是:引文既包含同行专家的定性评价,又可以定量评价,因此,否定不了。但这种同行的定性评价不都是直接的质量评价,动机多种多样,引用深度也大不一样。因此,对引文索引等的辅助评价学术质量的作用,我在十多年前就明确表示,一定要实事求是,不能绝对化,不能高估,也不能低看。值得指出的是,如果SCI,CSSCI研制目的主要是“检索”作用的话,那么《中文学术评论索引》(CARI)、《中国学科专家索引数据库》(CSI)则除了“检索”外,更侧重于“辅助评价学术质量”。但尽管如此,这些索引/数据库都不能代替同行评议,仅供同行更好地评议学术质量作参考,或者对同行评议的结果进行核实、校验。

6 结语

加强学术规范、遵循科研诚信,建立科学合理公正的学术评价体系是一个长期的任务,索引等技术手段仅是辅助工具。目前应将各种新技术与学术规范与评价研究的成果密切结合,双管、多管齐下,疗效将更为明显。具体措施可以对大学生、研究生进行学术规范、科研伦理与学术评价的系统教育,提高智能查重与评价数据(影响因子、被引次数、H指数、Altmetrics等)的准确性,对论文的关键词、文献综述、参考文献是否规范均可自动检测,以帮助指导老师审阅论文的规范性,学生也可利用系统自我学习有关规范,提高论文质量。但对学术不端行为应严格处理,加快中国学术共同体的建设(有学界,有同行,有学人,但无成熟的学术共同体,此正在建设与完善之中)。索引或数据库系统不能代替专家、学者的认定和评价。研究者的综合性思维、批判性思维、创新性思维在相当长时间里是技术(包括ChatGPT等新技术)不能替代的。索引/数据库+人工智能先解决论文形式规范问题,如摘要、关键词是否规范,以后再涉及论文内容规范,如文献综述是否合适,是否有重大遗漏,是否有创新点(查新)等问题。索引工作看上去似乎不怎么“高大上”,许逸民先生认为“眼高者不屑为,手低者不能为,用之者称方便,而编者之苦衷非尽人皆知也”。而张琪玉先生认为“知识诚可贵,索引价亦高”。如果索引编制质量很高,那么 “知识诚可贵,索引价更高”。笔者深以为然。索引工作是有点“为人作嫁衣裳”,但“润物细无声”。更适当、更恰当地说,某些索引工作较简单,但揭示复杂内容的索引却未必。尤其是质量精当的内容索引或向量数据库,至少涉及到逻辑学、语言学(术语学、语法)、情报语言学、目录学、文摘学、编辑出版学等多方面的知识。索引工作的创新包括索引选题的创新、索引项的创新、索引方法的创新、索引应用的创新(在学术规范和学术评价上的应用),此并非易事。如果“高人”也来做索引/数据库,无疑其功用将更大。

最后仿照名人句式作为结语:“学术尚无止境,索引必须多编,诸位加倍努力,大有用武之地!”

猜你喜欢
学术规范数据库
来稿规范
来稿规范
PDCA法在除颤仪规范操作中的应用
来稿规范
如何理解“Curator”:一个由翻译引发的学术思考
对学术造假重拳出击
数据库
数据库
数据库
数据库