基于“互联网+”的数字化技术在图书馆文献开发中的应用研究

2018-03-19 17:23杨凡
河南图书馆学刊 2018年2期
关键词:数字化互联网+互联网

杨凡

关键词:“互联网+”;数字化;文献开发

摘要:“互联网+”是国家战略层面的发展方向,是今后新科技应用的趋势。而“互联网+”连接一切的特性随着网络媒体的兴起、社交软件的普及和3D虚拟现实技术的出现,促使因新兴技术而产生的数据成倍增长,巨大的数据量使互联网技术与传统产业的跨行业融合成为可能。数字化产品普遍运用于人们的日常生活,如何能在纷繁复杂的数据流中获取及时、有效的信息是“互联网+”有效利用的关键性难题。文章结合图书馆开展文献数字化发展的实践,就新技术对图书馆文献开发造成的冲击进行分析,并提出应对数字化发展的对策。

中图分类号:G250.73文献标识码:A文章编号:1003-1588(2018)02-0123-03

易观国际董事长兼首席执行官于扬在“易观第五届移动互联网博览会”上提出“互联网+”理念,而“互联网+”概念上升到国家战略层面是在十二届全国人民代表大会三次会议上,由李克强总理在《政府工作报告》中首次提出。李克强总理指出:“推动移动互联网、云计算、“互联网+”、物联网等与现代制造业结合,促进电子商务、工业互联网和互联网金融健康发展,引导互联网企业拓展国际市场。”[1]因此,“互联网+”不仅是一种技术革新或行业标准,而是更多地转化为国家战略层面,代表着发展的趋势。

1“互联网+”的概念与特征

“互联网+”指的是以网络信息技术为手段,以传统行业为基础,组成有机的整体,以优化生产资源,提高效率,重新建构“互联网+”环境下的产业模式等方式完成从传统模式向数据模式的转型。“互联网+”的核心是网络数据流的优势,将网络数据与传统产业相结合,以产业模式重构提高社会生产力。“互联网+”的概念是以网络数据为原点,数据是信息的表现形式和载体,是事实或观察的结果,是对客观事物的逻辑归纳,并用于表示客观事物的原始素材。

跨界融合、创新驱动、重塑结构、尊重人性、开放生态、连接一切是“互联网+”具有的基本特征[2]。“互联网+”与不同行业的融合过程本身就是一种重新创造的过程,以计算机网络技术横跨别的行业本身就是一种创新,是行业间融合的先决条件,不同的行业在经历跨界融合后重塑成新的行业模式就是“互联网+”的最终模式。

“互联网+”带动传统产业数据化,而数据化是指传统产业以互联网数据为手段,以实现用户数据挖掘、汇总和分析,实现用户信息需求为目的的转型过程。通过产业数据化,传统产业转变原有的模式,形成以线下实体产品为基础,以供需关系为导向,以物流为通道的精准化商业模式。数据化的商业模式是以数据流为基础,基于新的商业模式,通过调整生产模式,从产品制作的固有思维中解脱出来,以众筹的形式分解产品生产过程中的成本,形成具有数据思维的新型模式。新技术的应用是“互联网+”的重要手段,将实验室中的新技术与传统产业相融合创造出新的市场空间。互联网开放、共享的特性使产业市场实现了跨地域式的扩展。

2图书馆数字化的现状及存在问题

2.1图书馆文献数字化的概念及发展轨迹

图书馆文献数字化是从利用和保护文献的目的出发,采用计算机技术,将常见的语言文字或图形符号转化为能被计算机识别的数字符号,从而制成书目数据库和全文数据库,用以揭示文献信息资源的一项系统工作[3]。

文献数字化将文献属性与数字技术及网络数字特点相结合。在具体实践中,文献数字化就是通过信息技术对文献进行加工,使其成为可重复利用的数据资源。将纸质载体转换为数据载体,数据被赋予了复制、传播的属性。图书馆通过建模采集、分析等方式将文献数字化资源组建成数据库,既能保护珍贵的文献,又能扩大实用性,方便大众使用。

文献数字化并非新生事物,其随着计算机技术的发展经历了以下几个阶段:首先是文本的数字化。即以人工錄入或光学字符识别(OCR)的方式将文字输入数据库而形成的文献,此类数字文献可以阅读,也能进行定位检索,具有检索性,但无法客观表现底本的原貌。其次是同时提供原书影和与文本参照。即使用书影查看原本的原貌,用矢量文本进行定位和检索。此类数据资源是对文本数字化准确率太低所做的妥协,兼具客观性和检索性,但制作和使用都很烦琐,发展空间较小。最后是双层PDF技术。即通过将书影与文本文字进行映射,以检索文本文字定位书影位置的方式达到检索效果。这种技术广泛应用于数字图书馆中文电子资源的制作,但中竖排的行文方式和字体的不规则,使双层PDF在实际操作中准确率不高。

随着文献数字化研究的深入和科学技术的迅猛发展,用户对数字化的需求不断提高,数字化的成果出现“互联网+”的特征。数字化数据的体量巨大,不仅有双层PDF和各种类型的数据库,而且还有用户下载使用时的信息,包括用户对数字化成果的满意度和评价信息。随着数字化的普及和社会关注度的提高,用户本身所产生的数据越来越需要引起图书馆的重视。将数字化成果和与之相对应的用户信息结合在一起建立数据集,是下一阶段图书馆文献数字化需要解决的问题。

2.2文献数字化在“互联网+”框架下所面临的问题

首先是在“互联网+”的冲击下,现有的标准存在内容不够全面、缺少细节规范等问题。在数据管理方面,涉及数字化的项目选题、验收的时间周期等细节问题;在技术方面,数字化的加工工序、底本选取原则、文字的字体设置也没有统一的规范。这些标准上的缺失导致各制作单位的数据在细节上不能统一。其次是数据的安全问题。“互联网+”的本质就是数据的集合,只要有数据就存在数据安全问题。在原有的模式下,数据安全只存在于数字化的数据库本身。在“互联网+”的影响下,数据安全管理还应包括用户使用数字化成果时所产生的所有数据,这在现阶段的数据库功能下是无法实现的。最后是“互联网+”冲击下文献发展存在的两大突出矛盾:①数字化和数据化的矛盾。很多全文数据库通过OCR技术将格式转化为可以被人工智能识别的全文文本格式,并加注句读。这样的形式破坏了底本的客观性,使用户无法获得文献本身自带的信息。这种矛盾正是“互联网+”新技术对文献数字化原有模式的最大冲击。②文献数字化文献检索便捷性与客观性的矛盾。要想保证数字化文献的客观性,并兼顾用户的直观感受,文献最好使用纯书影的方式建立数据库,但这样做带来的问题是便于浏览而无法检索。无法检索的数字化产品是不可能让用户快速、有效地获取文献数据的,也不符合“互联网+”时代的数据特点,其后果必然是被大部分用户所抛弃。便捷性和客观性的矛盾是困扰文献数字化产业发展的主要技术原因。

3基于“互联网+”的文献数字化发展策略

3.1加强标准化建设,成立数字化领导机构

在“互联网+”的框架下,图书馆必须加强标准化建设,确保按照数字资源格式统一、数据规范、长期可读、便于共享的原则制定标准、统一的规范[4]。在文献数字化管理工作中,图书馆可以根据数字化基础,参考国际标准和国外成功的经验,制定适合文献数字化开发的管理标准。如:借鉴已经成熟的数字化经验,以国家保护中心为核心,联合全国各收藏单位,统一数字化标准,成立独立领导机构,最终完成数字化行业的标准化建设。

3.2利用“互联网+”的特性进行跨界融合

“互联网+”的核心就是跨界融合、连接一切,它通常被视为人工智能的一部分,或更确切地说被视为一种机器学习。它是把数学算法运用到海量数据上以便预测事件发生的可能性,也就是说,“互联网+”通过数据之间的关联关系找到关联物并预测可能性。一般的数据分析是通过随机采样的方式找寻数据背后的“为什么”,而“互联网+”的数据分析是通过检索所有数据的相关关系,以此推导数据背后的“是什么”。因此,“互联网+”可以通过新闻、社交软件连接时下的社会热点,再在资源中定位与热点具有相关关系的数据资源,最后向社会用户进行分类推送。

3.3建立文献数字化标准数据库

文献数字化标准数据库是指按照“互联网+”标准化流程进行数字化制作的数据,是拥有检索功能,复合“互联网+”特点的数据库类型。数字化标准数据库是对数字化基础性先天不足的补充,可以解决互联网新技术冲击下暴露出来的各种问题,使数字化工作能为社会认知,为用户认可。

文献数字化标准数据库可以解决盲目开发、乱开发的问题。通过文献数字化标准数据库,国家局对全国各个单位的藏量有了大致的掌握,已经形成了系统的书目信息。国家局可以根据社会热点,按照已经掌握的信息有针对性地指导各个单位制订开发计划,这样做既可以使开发的数字化文献得到社会的认可,又可以避免重复性选题,节约资源以便开发更好的项目。

文献数字化标准数据库可以消除工作人员与其他学科研究人员认识上的差異。工作人员对于文献的认知来源于工作实践,是文献整理后积累下来的感觉,注重微观,讲究观风望气,可通过细节判定版本。其他学科的研究人员是数据化的支持者,因为数据化的文献更有助于科研活动。这部分用户注重全文文本的数字化,而不在意是否能客观体现原貌。图书馆通过制作标准数据库将两种用户的需求放在一起,可以通过个性化需求的升级服务消除他们之间的矛盾。

文献数字化标准数据库可以解决数字标准化与用户服务个性化的矛盾。省级馆作为文献数字化标准数据库的母库,其余单位制作的数据库作为补充,在统一标准的规范下进行数字化采集和数据库的制作,在数据设计、制作和管理验收等环节做到标准化。在此基础上,所有用户可按照他们对数据的要求进行个性化升级,既能保证标准化的数据格式,又能满足各个层次用户的个性化需求。

文献数字化标准数据库也便于进入市场。商业公司进行文献数字化是因为看到了数字化产业的发展空间。商业公司的优势在于市场运作,但他们不具备文献的相关积累,所开发的数字化数据的质量不高,不能满足用户的需求。文献数字化标准数据库的出现可以使商业公司扬长避短,既降低了开发成本,减少了开发时间,又可以集中精力寻找社会舆情与文献的相关点,便于把握市场热点。以文献标准数据库为基础的商业公司可以结合社会热点,适时推出与之相对应的产品。产品不应仅局限于数据库,还可以将信息及时、分类推送到使用各种移动终端的用户手中。

4结语

随着数字化信息与人们生活的密切程度越来越高,社会各行业与“互联网+”的联系也越来越紧密,“互联网+”新技术也为数字化行业带来了冲击和挑战。在这种前所未有的冲击下,文献数字化暴露出原有模式的不足与缺陷,如缺乏必要的数字化基础性建设、没有统一的制作标准等。同时,“互联网+”新思维也冲击着文献数字化标准、数据库结构等制作问题,这是文献数字化行业可持续发展面临的巨大挑战和机遇。要解决这一问题,各个单位需要整合多方力量,取长补短,建立全新的权威机构完成数字化基础性建设,建立文献标准化数据库,提高社会对数字化行业的认知度,最终建立完整意义上的文献数字化超大型数据库共享体系。

参考文献:

[1]中国新闻网.李克强:制定“互联网+”计划促电子商务健康发展[EB/OL].[2015-03-05].http://www.chinanews.com/gn/2015/0305/7103116.shtml.

[2]龙润琛.“互联网+”时代中小城市地方文献可持续发展的思考[J].内蒙古科技与经济,2017(17):126-127.

[3]葛怀东.论数字化标准体系建设[J].图书馆学刊,2013(1):47-49.

[4]范佳.“数字人文”内涵与数字化的深度开发[J].图书馆学研究,2013(3):29-32.

(编校:周雪芹)

猜你喜欢
数字化互联网+互联网
揭示数字化转型的内在逻辑
数字化起舞
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施
以高品质对农节目助力打赢脱贫攻坚战