科技资源信息相关集成方法研究

2020-06-02 04:19于阳

江苏科技信息 2020年11期

于阳

（江苏省科学技术情报研究所，江苏南京 210042）

0 引言

科技创新驱动发展，深入挖掘和利用科技资源信息，能够高效地分析和利用信息数据对国民经济发展和社会发展的意义特别重大。本文结合大数据背景下的科技资源信息挖掘与利用，通过建立高效的科技大数据之分析和利用的应用技术模型，为相关数据收集整理，满足市场化需求将作广泛深入研究，以此为大数据背景下的科技资源信息得到有效挖掘和利用提供必要的技术支撑。

1 科技大数据的特点与价值

科技大数据既与科学数据不同，也不是一般的网络大数据［1］。科技大数据从分类上看既有科技知识数据，也有科技活动数据；从内容上看，既有围绕科技产出的核心科技数据，也有伴随科技活动而形成的扩展科技大数据；从表现形式上看既有以传统科技文献为代表的结构化规范文档，也有网络环境下所产生的只言片语、转发点赞。科技大数据与科学大数据、网络大数据等有着显著的不同，是大数据时代众多大数据类型中独特的一种数据形式。它既是政府决策和企业创新的重要基础数据，也是各种科研机构进行科学研究的重要产物和成果。科技大数据除了一般大数据具有的4V特征（Variety、Volume、Velocity、Value，即多样化、大量化、快速化、价值密度低）外，还具有一般科学数据客观性、分离性、长效性、不对称性、非排他性、可传递性、增值性等特征内容。另外，科技大数据还具有一些特性：高维度性、高度计算复杂性、高度不确定性和时空尺度大、分散多源异构等［2］。科技大数据的上述特征和属性，决定了科技大数据集成共享的复杂性、困难性和长期性。

围绕科技大数据开展的研究分析工作，可在科技工作的不同阶段提供内容资源和信息分析、评价、预测、对比等多种科研和管理增值服务。例如可以在科学研究阶段为研究人员提供选题思路、路线图制定、提供竞争情报，并进行成果交流；实现项目管理阶段的立项、资助、团队遴选、项目验收；在产业化阶段为资金投向、市场分析、技术趋势预测提供支持。对科技创新工作和创新型国家建设有着重要的辅助作用，同时也代表着科技信息与情报服务向知识服务转变的行业发展方向。

2 科技资源平台建设现状及存在的问题

2002 年科技部提出开放科学数据，实现共同发展。经过了近18 年来的发展与建设，我国科技资源平台的建设工作取得了一定的成果，基本完成了适应科技创新和科技发展需要的科技基础条件支撑体系。国家科技资源共享网，通过整合国内主流科技资源站点，在国家层面上构建了全国范围内逻辑统一、高度集成、高效共享的科研共享信息平台。平台整合资源类别多达28类，参与建设的单位上千家，种类繁多，备受国内外科技人员的广泛关注［3］。与此同时，国内科技资源管理共享系统、科技资源省市平台网站、科技资源建设项目网站相应地可以做到在一定条件下达到科技资源共享的目的，为大众使用科技资源提供了前所未有的便利［4］。

然而，现有共享网站或系统主要采用传统集中式IOE（IBM 服务器+Oracle 数据库+EMC 存储）模式，而随着科技资源数据爆炸式增长，该模式下服务器存储量的不断扩展不仅给财政支出和日常运维带来压力，技术上也存在以下4 个方面的问题与不足。一是存储横向线性扩展有限，传统系统都属于TB级，而支持PB级能力有限；二是硬件平台兼容性差，致使异构平台整合困难；三是非结构化数据存储处理能力不足，关系型数据库仅对结构化数据处理高效；四是数据处理与检索性能瓶颈，数据量大、读写频繁导致传统数据库I/O 性能下降。

3 科技大数据中心构建思想和技术方法

3.1 科技大数据中心构建思想

3.1.1 整合方式

构建科技大数据中心需要整合的资源包括一切可以直接或经过开发后间接为科学研究和技术创新活动提供价值的资源。按照科技人力、科技财力、科技物力资源以及科技信息资源的划分［5］，需要整合出国内外已有的知网、万方、维普及其他海量的数据库资源，这些资源分支包括自然科技资源、科技人才资源、科技数据资源、大型仪器等数据库，并且还需要集成包括科技服务产品与科技服务对象在内的科技服务资源。同时将海量的科技资源信息进行剖析重组，挖掘与用户需求相适应的知识内容并提供专业的情报服务，完成对科技数据的深层次挖掘，最终达到情报服务升级的目的。

目前有大量的科技大数据中心用于解决日益增长的多样化业务服务，包括海量数据存储、高性能的计算服务，还包括整合现有资源、保护现有资产、总线服务手段，以期实现业务流程的重组和再造，甚至将旧有的科技系统数据和服务顺利接入云平台。科技大数据中心要整合的科技资源在数量上也是不断增加的，以往以Web 界面为基础的整合方式虽然技术上很简单，然而各个资源之间是相互独立的，没有必要的数据交换，更谈不上对所有的资源进行有效的分析利用，最明显的缺点是用户使用每个资源时仍然要按照对应的身份验证，实用商业会存在很大的麻烦和不便。随着各种类型资源的增多，对这些资源的管理难度也会大大增加，整个大数据中心的安全性也得不到保障，所以在整合时要开发设计统一登录的身份认证系统，以此来保证系统的安全性，也便于对中心平台的资源管理、用户管理。

以江苏省的所有科技资源为例，将所有资源分为三大类：服务类、数据类、管理类。其中服务类的科技大数据包括成果交易产权一站式服务、物联网智能化技术服务、经济社会信息服务、科技中介服务、众创空间；数据类的科技大数据含有包括所有科技资源的一站式检索以及创新能力数据的统计数据；管理类的科技大数据包括创新政策、项目管理、政务公开、开放合作、知识产权、科技前沿的相应数据。

按照以上的整合方式建设科技大数据中心，科技资源最大程度共享的同时，还提供了丰富的科技服务。科技服务涵盖了全类别的科技服务机构的主要业务，建设成为一个资源与服务并重的科技大数据中心，构建了本地区的科技资源与服务为一体的门户网站。为本区域提供全方位的科技资源共享和服务的同时，减少区域内不必要的资源重复采购，平台也成为政府决策和企业创新的信息资源支撑平台。

3.1.2 平台架构

科技大数据中心平台采用可靠性高、扩展性强、容错性好的Hadoop 大数据平台，Hadoop 硬件需求不高，相应的系统解决方案囊括数据存储、数据处理、系统管理，海量数据存储由HDFS，MapReduce，HDFS提供，海量数据处理编程接口由MapReduce提供［6］。

该平台选用内存1GB以上的CPU，保证任务的分发，服务器尽量选择磁盘容量和性能比较接近的，交换设备选择千兆及以上的以太网，这样可以提高系统的整体性能。

由于科技大数据资源的数据类型多种多样，既有结构化的数据又有非结构够化的数据，因此更适用HBase型数据库存储方式，所有其他的类型都可以由用户自己设置。对于科技大数据资源，整合上需要频繁地更新，用户使用上需要大量的查询、分析，因此对数据的操作会很频繁，使用MapReduce程序可以方便地实现上述功能操作。目前科技发展迅速，对科技大数据的更新和维护有着极高的要求，采用HBase列式数据库更适合数据的快速查询与数据维护。构建成大数据中心后，随着时间的推移，仍然需要对其进行扩展更新，然而对传统的关系型数据库进行扩容很复杂，需要中间件才能实现。HBase数据库的可伸缩性很强，当HBase 集群需要扩容时，通过增加服务器的数量就可以简便实现。

复旦剧社除了有洪深先生的大力扶持外，还有曹禺剧作的支撑。曹禺剧作《雷雨》《日出》都是由复旦剧社排练演出并第一次与中国观众见面的。曹禺的《雷雨》《日出》《北京人》等剧作曾多次搬上复旦剧社的舞台。（图 3、图 4）

因此，从数据存储模式、操作、维护、扩展方面而言，HBase数据库更适合科技大数据中心平台。为实现科技资源的集成与共享，克服传统的科技资源共享平台存在的缺陷，构建了科技大数据中心，其总体架构如图1所示。

图1 中科技大数据中心支撑平台分为数据平台和分析平台两部分。数据平台采用MongoDB 进行存储结构化数据和使用HDFS 进行存储无结构数据，并采用Lucene和Elasticsearch 弹性搜索技术来索引数据。分析平台的智能分析功能依托于运用Deeplearning和通用图形处理器技术。

图1 科技大数据中心平台模型

科技大数据中心还提供情报服务，主要完成面向情报数据的情报服务功能，包括情报数据的搜索和标注。分析服务则提供预测、规划及博弈等功能。

科技大数据中心的目标之一是挖掘用户价值，除了实现初级的情报获取和情报提炼，还致力于完成技术趋势预测的高级目标。

3.2 科技大数据中心构建技术方法

科技大数据中心构建技术与大数据技术的5 个核心部分类似，分为数据采集、数据存储、数据清洗、数据挖掘、数据可视化［7］。针对科技大数据中心的构建技术方法本文从4个方面进行阐述。

3.2.1 数据采集

科技大数据的采集就是采集各种来源（如科技文献资源、网络科技新闻资源、科技政策资源等）的结构化和非结构化海量数据。数据采集过程，为了将分散、零乱、标准不统一的数据整合到一起，为后期的决策提供分析依据，通过ETL 工具来进行数据抽取、清洗转换和加载到数据仓库。

针对网络上需要采集的科技数据，借助网络爬虫或公开的网站数据接口，从网页采集而得的结构化或半结构化数据，并将其统一处理为本地的结构化数据。同时科技大数据还涉及相当数量的文件采集，本文利用flume 进行实时文件采集和处理，运用这些技术共同保障科技大数据的实时完整。

3.2.2 科技大数据预处理

科技大数据预处理是在进行数据分析之前，对采集及集成的原始数据进行“清洗、填补、平滑、合并、规格化、一致性检验”等一系列操作，目的是要提高科技大数据质量，为后续的分析工作做基础，科技大数据预处理包括科技数据的清理、集成、转换、规约4个部分。

科技数据清理的清洗工具有ETL 和Potter's Wheel，它主要是对缺少感兴趣属性的有遗漏数据、数据中存在着错误或偏离期望值的噪音数据、不一致的数据进行处理。用全局常量、属性均值、可能值填充或直接忽略该数据进行遗漏数据处理。用分组原始数据，并分别对各组数据采用平滑处理方式来进行噪音数据处理，还有聚类、计算机人工检查、回归等去除噪音处理方法。

科技数据集成，旨在把来源不同的科技数据合并存放到统一的数据库。该过程着重解决3个问题：模式匹配、数据冗余、数据值冲突检测与处理。数据转换，指对所抽取出来的数据中存在的不一致进行处理的过程。它同时包含了数据清洗的工作，即根据业务规则对异常数据进行清洗，以保证后续分析结果的准确性。数据归约能最大限度地保持数据原貌，相当于尽可能地保持数据完整性，通过概念分层、数值规约、数据压缩、数据方聚集、维规约等来最大限度精简数据量，减少数据集的操作。

3.2.3 大数据存储

由于科技大数据结构复杂，而Hadoop拥有开源，善于处理半结构、非结构化的数据，复杂的抽取、交互转换、加载至目的端流程，多种挖掘分析以及丰富的计算模型等优势，因此中心平台通过扩展和封装Hadoop 来实现对科技大数据的存储和分析的支撑，并采用云存储与分布式文件存储等基础架构来适应科技大数据的增量变化，获得较高的存储效率，具有灵活的扩展性，并能适应多种规模，同时能够降低数据存储的花费，减少不必要的资源浪费，保证数据安全。

3.2.4 科技资源信息的再挖掘分析

由上述分析不难发现，通过可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量管理等方面，对杂乱无章的数据进行萃取、提炼和分析，可进行科技资源信息的挖掘和利用［8］。图形化工具解决了分散异构的科技数据，可进行关联、分析并做出完整的图表，直接呈现给中心用户以简单明了、清晰直观且易于接受的各种分析结果。数据挖掘算法解决了各种不同的科技数据类型和格式，使用能够与之相适应的查找，进而确定适合挖掘的最佳参数模型，让统计结果分析到位。还有一些像特别统计分析、趋势预测、用户画像、建模、优化、机器学习等高级分析功能，可以做到用科技大数据进行预测性分析，让事件的不确定性能够提前预测，主要可用来预测科技研究热点、主题热度趋势等各种将来事件，为政府和企业调整战略提供依据。在科技大数据检索时还需要采用语义引擎技术，为已有的科技数据添加语义，提高用户的检索体验。

4 结语

通过上述科技大数据的特点与价值的分析研究，结合现阶段科技大数据共享平台的现状和存在的问题，以及江苏省科学技术情报所现有各类数据资源种类、数据内容、表现形式、服务模式、运用技术及网络应用平台现状，通过利用互联网及大数据技术的发展特点，运用多源数据融合技术、自然语言处理、深度学习等先进的信息技术，以务实、严谨、科学的态度做好科技大数据中心的顶层设计，探讨了其建设内涵、组织架构、任务内容和实现路径，实现数据共享与集成应用，加强特色资源和服务能力建设，从而打造江苏科技大数据建设与服务品牌。