中外档案资源数字众包项目比较研究
——以盛宣怀档案抄录项目和边沁手稿转录项目为考察对象

2021-11-27 02:46蔡栋梁上海大学图书情报档案系
浙江档案 2021年6期
关键词:盛宣怀手稿人文

蔡栋梁/上海大学图书情报档案系

1 引言

数字人文是一个新型跨学科领域,强调将现代信息技术和计算机技术应用于传统人文研究。数字人文的提出与发展,给传统人文研究带来了新的研究方法与研究范式[1]。基于互联网诞生的新兴模式众包(Crowdsourcing),使得数字人文的发展有了新的方向。档案资源数字众包项目是由档案馆、图书馆等人文机构发起,通过互联网平台组织社会群众加入,共同完成某项旨在深入挖掘档案信息资源的数字人文项目,有利于促进档案信息资源的深度开发与利用。

国外目前最具影响力的数字众包项目是英国伦敦大学学院(UCL)图书馆开展的边沁手稿转录项目(Transcribe Bentham)[2],于2010年向公众推出,旨在征集学生、研究人员和公众对杰里米·边沁(Jeremy Bentham,1748—1832)的手稿进行查阅和转录,以便更多人了解和传播边沁的生活与思想;国内最出名的数字众包项目为盛宣怀(1844—1916)档案抄录项目(后文简称为“盛宣怀项目”),由上海图书馆(后文简称“上图”)历史文献众包中心于2017年开展,旨在征集公众对经过数字化处理的盛宣怀档案进行抄录和标注,从而充分地利用这些珍贵的史料。

盛宣怀项目和边沁手稿转录项目是国内外典型的档案资源数字众包项目,二者众包项目类型相同,均是针对某一个名人的档案史料进行文本化加工,且二者的资源基础丰富完备、开展规模相当,因此十分适合做比较研究。通过对其运行情况的比较,可以分析我国数字众包项目的开展现状,审视我国众包研究的发展形势,并针对不足提出相应的对策。本文将从项目的资源基础、平台机制、项目运营三个角度切入,对二者进行对比分析。

2 中外数字众包项目对比分析

2.1 资源基础

种类多且数量大的档案资源是众包抄录项目应用的主要素材,也是其重要基础。边沁手稿转录项和目的资源来源于伦敦大学学院图书馆和大英图书馆,手稿有6万多本,主要包括作品集的草稿笔记、未出版的文集、往来信件等;盛宣怀项目的资源来源于上图,约17.5万件,主要包括日记、文稿、信札等。

UCL图书馆和上图分别针对两个项目的数字化资源建设了边沁论文数字资料库和盛宣怀档案知识库,二者均保存了数字化档案资源,且提供检索查询。在边沁手稿转录项目中,抄本会同步上传到资料库;盛宣怀项目则暂无此功能,其众包平台与知识库的数据相对独立,抄录结果直接呈现在众包平台中。相比之下边沁手稿转录项目的整体资源更显集中化,更有利于提高获取该专题人文研究数据的效率。

2.2 平台机制

2.2.1 用户参与方式

边沁手稿转录项目的用户会得到一份数字化图像,以及一个实现文字转录的文本框;盛宣怀项目用户在认领任务后,在抄录界面进行抄录任务,抄录形式是按页抄录,根据页面左侧图片中的文字内容,输入进页面右侧的抄录栏中即可。边沁手稿转录项目的用户在进行标记时需要用到一个特定的转录工具栏,直接对手稿图像进行标注;盛宣怀项目中标记的实现只需使用界面右侧的留言栏即可。两个项目的用户在转录过程中均可随时保存文字记录。边沁手稿转录项目平台还允许用户之间互相查阅抄录记录,做出更正和补充。

盛宣怀项目的众包平台用户友好性更高。首先,可视化效果精美,相比于只有单调文字的边沁手稿转录项目平台页面更美观;其次,使用流程和抄录工作便捷,而边沁手稿转录项目的转录操作较为复杂,尤其是用以标记的转录工具栏;最后,平台特设的元数据集管理机制允许导入元数据信息,用户可以更好地理解档案文献,以提高抄录效率;而边沁手稿转录项目平台尚未加入元数据集管理,边沁手稿数字档案的元数据主要用在边沁论文数字资料库中数据库目录的编制。

2.2.2 质量控制手段

边沁手稿转录项目的质量控制主要从文本的准确性和编码的一致性(来源于标记功能所产生的XML代码)两个方面进行。符合标准的抄本会被锁定,以防止被篡改,并上传到资料库;不符合标准的抄本则打回重新修改。

盛宣怀项目的质量控制手段有三:第一,平台设置时限,有助于提高用户的抄录效率;第二,平台采用专家审核制度,审核阶段由专家对用户的抄录情况进行审核并打分,留言功能也给专家对用户的意见提供了渠道,这是平台质量控制的核心手段;第三,平台支持多人抄录,进一步保证抄录质量。

边沁手稿转录项目和盛宣怀项目的质量控制都是采取专业人员审核为核心手段,盛宣怀项目侧重点在于内容准确性,而边沁手稿转录项目还要同时关注编码一致性,且需要兼顾上传资料库等工作,所以质量控制的工作量更大、更具技术性。

提高项目的质量控制效率是项目优化的重中之重。2013年,边沁手稿转录项目启用了第二代转录平台,此后抄本的合格率明显提高,主要原因是原本占据了大量时间的编码审核工作效率有了大幅度的提高[3],这一进步主要来源于第二代转录平台用户友好性的提高,可见转录平台和转录方式的改进有助于减少用户抄录和标记时出错的频率,从而提高抄录工作的质量。

2.2.3 用户激励机制

为了鼓励用户积极参与,边沁手稿转录项目设置了积分机制,用户完成转录任务时可获取积分,用户的积分排行榜会发布在平台主页上;盛宣怀项目同样也设置了积分排行榜。除此之外,用户积分达到一定的标准后,管理员会根据其专业水准赋予专家头衔及任务审核权限,从而提高用户的积极性,而边沁手稿转录项目因涉及的技术手段,无法将审核工作交给用户。

2.3 项目运营

2.3.1 宣传途径

边沁手稿转录项目选择与权威的报刊媒体《纽约时报》合作,作为宣传手段。2010年12月,《纽约时报》发表了一篇边沁手稿转录项目的专题文章。报道后,平台的抄录活动急剧增加,仅用了10天就抄写了187份手稿,相比于报道前10天增加了43%[4]。

盛宣怀项目则选择与南京大学合作的方式进行项目推广。2018年,上图与南大联合举办了“文化遗产数字化”竞赛活动,旨在征集各高校大学生,对上图发布的“盛宣怀档案”主题资源进行抄录。上图针对高校大学生举办了竞赛活动,希望在特定人群中将众包活动展开,再推广到大众中,提高社会知名度。

整个竞赛期间,参数赛人数达到60多人,共计完成200多件抄录任务。竞赛结束后,平台平均每月抄录任务为5—10份。截止至2019年,平台用户数为171,共计完成任务346件[5]。

从二者的结果来看,边沁手稿转录项目的宣传手段效果更好。盛宣怀项目后期并未达到预期效果,其原因主要为宣传范围不够广泛。边沁手稿转录项目宣传的渠道是阅读人群基数庞大的《纽约时报》,覆盖到了各个年龄层和各个职业圈的人,而盛宣怀项目的推广只有前期的大学生群体,并没有后续推广活动的跟进。

2.3.2 参与人数

边沁手稿转录项目向全世界开放。Google Analytics的报告显示,有来自全球91个国家的人访问了抄录平台,大多数来自美国,其次是英国[6];盛宣怀项目初期选择与高校合作,因此该项目早期的用户很大一部分是高校学生。随着项目的发展,用户人群逐渐扩展到社会层面,如一些能接触到该项目的图书馆馆员、关注上图动向的人等等。

截至2013年,已有2454名用户在边沁手稿转录项目平台注册了账户,遍布全球90多个国家;截至2019年,同样是项目开展的第3年,盛宣怀项目的平台用户数量仅达到171,其中大部分是高校学生。

二者的差距较为悬殊,主要原因可能有二:首先,项目主办机构的影响力存在差距。伦敦大学学院是世界著名的顶尖高等学府,其排名一直稳居世界前十;而上图作为一个综合性研究型公共图书馆,虽在中国发展迅速,但其国际影响力还无法与伦敦大学学院图书馆相比。其次,抄录对象的影响力存在差距。边沁一生在哲学、法学、经济学上都有很高成就,他的思想不仅吸引了众多学者研究,也吸引了普罗大众的关注;而同样在政治、商业、教育等方面有极高建树的盛宣怀,其保存完备的档案史料虽然吸引了研究中国近代史的学者,但对普通社会群众来说影响力和吸引力还不够。

2.3.3 参与动因

根据调查,边沁手稿转录项目的参与者多为对边沁个人本身感兴趣,想通过该项目更深入地了解边沁;其次是对哲学和历史感兴趣,或者是对众包模式的新鲜感以及对项目背后技术的好奇;少部分用户希望该项目可以帮助更多人了解到边沁。

综合整个项目的发展过程来看,盛宣怀项目用户的动因可分为外因和内因。外因可归纳为外部奖励、反馈机制、社会规范,如完成任务获取的积分、完成情况的评价、平台给用户设置的任务时限等;内因可归纳为兴趣、情感、个人价值的满足,如对历史人文主题的兴趣、完成任务时的成就感、识别古文字能力的提升等[7]。

两个项目的用户参与动因不尽相同,边沁手稿转录项目的用户更多是靠发自内心对边沁感兴趣和对哲史热爱作为参与驱动力,即是以内部动因为导向的;而盛宣怀项目用户的参与则需要靠一定的奖励机制,即是以外部动因为导向的。可以看出我国群众对盛宣怀这一历史人物不够了解,也呈现出我国国民对历史人文领域的关注和参与程度过低的现状。

3 我国数字众包项目的发展策略

我国数字众包项目发展仍在起步阶段,上图的众包尝试时期还比较短暂,盛宣怀项目中存在的问题也是我国众包发展存在的问题。针对目前存在的资源不够集中、宣传力度不够等问题,笔者从几个角度提出了几点发展策略。

3.1 项目平台建设

第一,加强内容挖掘。值得一提的是,边沁手稿转录项目开展过程中,出现过三次参与者数量明显上升的现象:第一次是《纽约时报》的报道;第二次是转录平台的升级优化;第三次是大英图书馆提供了一批新手稿,此次参与率上升最明显。这批手稿大多是边沁的往来信件,通常比一般的手稿更短更易读,且有完整的事件描述,因此吸引了更多人的加入。由此可见,在群众对边沁的兴趣基础上,生动的故事和完整的信息更能激起群众对项目的热情。这体现了众包项目内容的重要性,如何最大程度地发挥项目主题内容的最大吸引力,是机构思考的重点。平台可以加强和知识库的联系,利用关联数据技术对已获取的抄录文本和原有的数字资源进行数据挖掘,辅以可视化技术,从而实现更深层次的内容挖掘。

第二,优化质量控制手段。质量控制是众包抄录项目的重要环节,也是技术难度最大的环节。为了在保障质量的前提下降低审核成本,可以尝试引入自动化的审核功能。如在多人抄录环节中,可以考虑引入机器自动对比合并功能,以减少专家工作量,提高审核效率。

3.2 项目用户服务

第一,关注用户需求。大多数用户希望获得一定的物质奖励,以当作持续参与项目的动力。因此,组织机构可以在调研志愿者需求的基础上,适当地设置物质奖励,使物质奖励和精神奖励有机结合。

第二,增强帮助机制。众包抄录项目有其特殊性,平台上发布的抄录任务具有一定的难度,需要用户有一定的知识背景和能力水平,在这种情况下,想要使用户持续在平台参与抄录任务且不被难度劝退,增强平台的反馈机制和帮助机制是关键。

第三,营造参与者社群。有用户表示在参与的过程中,认识到了志同道合的朋友,且对这个圈子产生了归属感,因此可以通过营造参与者社群,增强用户的这种归属感和使命感。机构可以定期组织用户进行线上或线下的交流讨论活动,如线上的历史文献研讨会、线下的真迹手稿展览观摩等。

3.3 项目运营

第一,继续加强机构间合作力度。历史文献众包平台作为一个开放众包平台,本身就可以供其他有需求的机构开展众包活动,若能与此类机构建立长期且稳定的合作关系,就能把其本身自带的用户转换为整个平台的用户,以达到扩大用户群体的目的;与社会机构的活动性合作,可以丰富抄录活动的内容,增强趣味性,以达到提高吸引力的目的,如项目初期与南大的合作。

第二,进行多渠道宣传。多渠道宣传可分为线下宣传和线上宣传,线下如举办展览、参观等,线上特指社交媒体,机构可以利用社交媒体在信息传播方面的独特优势,吸引公众参与,如在微博、微信公众号等大众社交平台进行项目的前期宣传、参与者报名以及成果展示等活动;又如在知乎等网络社群类软件中,开设专题版块,为参与众包项目的用户提供专属讨论空间,以便其相互交流心得体验。

第三,创新个性化推广。在推广上不要只局限于项目本身,有时应跳脱出来,从资源内容上着手。盛宣怀档案资源以形式多样、保存完备著称,机构应多加利用现有的档案资源,如书信、日记等,还原出一个个生动有趣的故事,同时可以与传媒行业合作,把盛宣怀的历史故事制作成纪录片等影视作品,将冷冰冰的历史档案赋予温度,以一种个性化的形象呈现在大众面前,从而提升知名度。

3.4 社会环境

当前我国国民科学人文素养还有待加强,而提升国民的科学人文素养也是人文众包的诉求之一。大众科学人文素养的积累是个漫长的过程,上图已经踏出了坚实的一步,举办的开放数据竞赛旨在征集社会大众利用开放数据和各种技术做出具有创意和可用性的人文产品,在参与竞赛的过程中和产品的落地推广过程中都起到了向大众传播优秀文化的效果。

猜你喜欢
盛宣怀手稿人文
大家手稿
作家手稿
美在山水,魂在人文
最朴素的人文
作家手稿
走错了路,起步即是末路
走错了路,起步即是末路
丢失的手稿
汉冶萍公司与日本债务关系之双向考察
人文社科