知识图谱研究综述及其在风险管理领域应用

2021-08-24 07:24杨美芳
小型微型计算机系统 2021年8期
关键词:知识库图谱实体

杨 波,杨美芳

(江西财经大学 信息管理学院信息系,南昌 330032)

1 引 言

随着信息技术、人工智能以及大数据技术的持续发展和不断变革,新兴技术赋能更丰富的新应用使数据呈现规模式增长.海量数据中蕴藏着大量潜在有价值的知识,为经济社会的发展提供丰富而宝贵的知识资源,但如何从多元异质的互联网数据中获取符合用户需求的信息成为知识管理研究的关键问题.因此,我们应遵循知识组织的原则,寻求既符合领域信息资源演化规律又满足领域实际需求的知识管理方法,使其直观而全面地展现网络信息资源全貌,为用户提供更优质的知识服务.知识图谱构建了一种全新的知识服务模式,为解决风险管理领域智能化语义检索与网络知识互联提供了新思路.

知识图谱最先Google公司于2012年正式提出,谷歌知识图谱最初的目的是为提高搜索引擎效率并提升用户搜索体验[1].知识图谱作为智能信息服务的辅助工具,近年来受到学术界与企业界的关注.大量学者对知识图谱相关技术进行了深入研究,包括知识抽取、知识融合、知识推理与知识问答等[2];此外,企业应用知识图谱解决实际问题效果出色,以微软、谷歌、FaceBook和IBM等为代表的国际巨头和以BAT与华为等为代表的国内大型企业在其产品中均使用了知识图谱及其相关技术.目前,知识图谱逐渐开始应用于风险管理领域,在风险识别、评估、预警与防控等方面具有很好的发展前景[3].知识图谱是一种有向信息异构网络,包含节点与有向边,节点代表现实世界的实体,有向边代表实体间关系.对企业界而言,风险管理领域知识图谱中蕴含着大量企业内外部信息,以及企业间的关系,并可与企业经营数据有效集成,从而挖掘企业间隐藏的关联关系,帮助企业在知识驱动下自动完成风险管理任务[4].随着人工智能与大数据的快速发展,企业积累了大量风险管理领域数据,如何从这些数据中抽取有价值的信息并加以利用,是推进企业与社会智慧化进程的关键,也是风险智能化管理的基础,对于提高管理决策水平、减少风险损失意义重大.

2 风险管理领域知识图谱的定义与架构

2.1 基本定义

2012年Google首次提出知识图谱的概念,并把它定义为一个提供智能搜索服务的大型知识库.然而从学术界与企业界发展动态来看,这一定义过于简单.学术界普遍接受的定义为“知识图谱是语义网技术之一,描述的是基于图的数据结构,由节点(实体)和边(实体间关系)组成[5].它本质上是存储实体及实体间联系的结构化网络.”此外,在特定情境下知识图谱的内容会频繁动态地更改,最近也有学者尝试构建动态知识图谱,将原有的三元组变更为包含时间戳的四元组,扩展了知识的演化性[6].企业界对知识图谱的定义更加丰富与宽泛,通常将知识图谱定义为运用图结构组织企业大规模的领域知识,并为企业提供个性化的智能服务[7].

从知识覆盖领域来看,知识图谱分为领域知识图谱(Domain-Specific Knowledge Graph,DSKG)与通用知识图谱(Universal Knowledge Graph,UKG).通用知识图谱则更注重知识的广度,强调实体间的融合,其精度与深度不高,难以形成统一的本体标准.领域知识图谱将知识覆盖范围聚焦于特定领域,并综合考虑业务需求、业务能力等因素,因此需定义更为严格的数据模式,保证领域实例知识的精度与深度.本文从知识表示、知识组织与知识应用3方面总结DSKG与UKG的区别,如表1所示.

表1 领域知识图谱与通用知识图谱对比

本文通过对领域知识图谱已有研究成果的分析,提出风险管理领域知识图谱的定义.

定义1. 知识图谱.知识图谱是描述物理世界中概念及其关系的语义知识库,其基本组成单元为“实体-关系-实体”三元组与“实体-属性-属性值”三元组.知识图谱通过三元组将知识表达为网状的图结构,便于知识的表示、抽取、组织、检索与推理.

知识图谱设计初衷是用于静态知识表达,无法描述知识随时间动态变化的过程[8].而风险时刻在变化,这为风险管理领域知识表达带来极大不便.因此,将时间属性增加到风险管理领域知识图谱的基本组织单元中,使之具备表达动态风险知识的能力,是未来风险管理领域知识图谱研究的趋势.基于此,本文将风险管理领域知识图谱的定义如下.

定义2. 风险管理领域知识图谱.风险管理领域知识图谱(Risk Management Domain Knowledge Graph,RMDKG)指的是风险管理领域相关的结构化风险语义知识库和风险事件库,其基本组成单元是“实体-关系-时间区间-实体”四元组和“实体-属性-事件-属性值”四元组.风险管理领域相关信息通过四元组构成网状动态图知识结构.

2.2 RMDKG体系架构

知识图谱技术架构指知识图谱的构建模式[9],主要包括自顶向下与自底向上两种方式.自顶向下是首先构建知识图谱的本体与数据模式,然后再将抽取的实体与关系更新到知识库中.自底向上指从开放链接数据中抽取置信度较高的实体关系合并到知识图谱中,然后再构建顶层的数据模式.RMDKG面向特定领域,对知识深度、质量和粒度要求更加严格,需更加完备的本体层数据模式,因此RMDKG采用自顶向下和自底向上相结合的方式.

RMDKG主要利用抽取的大量领域知识解决风险管理相关的问题.RMDKG构建流程归纳为风险管理领域知识抽取、风险管理领域知识融合与风险管理领域知识计算等3大模块,如图1所示.风险管理领域知识抽取是从这些数据中提取实体、关系、时间、属性等信息,并按照既定的存储规则存入风险管理领域知识库.风险管理领域知识融合是将风险管理领域知识库的内容有机融合起来,通过知识整合、消歧等操作,增强风险管理领域知识库的柔性、条理性和系统性.风险管理领域知识计算借助知识推理,推断出可能引发的风险事件,自动完成风险识别、预警与处理.

图1 风险管理领域知识图谱构建技术架构

3 风险管理领域知识图谱的关键技术

RMDKG的构建与应用需要知识表示、抽取、融合、计算与推理等多种智能知识处理技术的支持.知识表示的核心在于对风险管理领域文本中的实体和关系进行表示,并通过表示向量捕捉实体间的关联关系.通过知识抽取技术可从海量的风险管理领域文本数据中自动抽取实体关系,进而将实体与关系结构化为知识,并扩充到知识图谱中.借助知识融合技术消除实体与关系的歧义,形成高质量的RMDKG.风险管理领域知识计算与推理是在此基础上进一步挖掘知识图谱中蕴含的隐性知识,从而丰富与扩展RMDKG.

3.1 风险管理领域知识表示

风险管理领域知识表示(Risk Management Domain Knowledge Representation,RMDKR)是通过挖掘风险管理领域数据中实体及实体间关系信息,并将这些信息组织成结构化的知识网络[10].传统RMDKR方法处理风险管理领域知识存在计算效率低与结构稀疏等问题,很大程度影响知识图谱在风险管理领域的应用.近年来,随着深度学习与人工智能等知识表示技术的发展,RMDKG中的实体与关系可表示为低维稠密向量,使实体和关系的表示能够充分融合知识图谱的结构信息,从而解决风险管理领域实体与关系的复杂多样性、图谱结构的稀疏性以及图谱构建过程信息不准确等问题,为RMDKG的构建奠定基础.

RMDKR方法大致分为结构向量模型、单层神经网络模型、语义匹配模型、隐变量模型与平移模型及其扩展.各类模型特点及其优劣势如表2所示.

由表2可知,尽管TransE模型兼顾了知识表示的效果与方法的执行效率,并被广泛应用于知识图谱的知识表示学习中,但在风险管理领域应用中仍有待改进.因此,TransE模型可从以下几个方面进行拓展,这也是未来RMDKR研究方向.

表2 知识表示模型特点及其优劣势

1)TransE模型构建基于理想化的平移假设,而RMDKG中实体间存在一对多或多对多的复杂关系,因此知识建模往往会出现问题.为解决知识图谱中复杂关系建模的问题,杨小平等人提出了基于平移模型的TransR模型,通过关系特化投影矩阵,将不同实体映射到不同的语义空间,使实体在不同关系中表现不同语义特征,有效提升实体间复杂关系的处理能力[11].

2)TransE模型只考虑了知识图谱中局部实体关系信息,而未考虑知识图谱全局的网络结构以及实体间蕴含的逻辑推理关系.郭茂盛等人认为文本蕴含知识推理机制能够辅助实体间关系识别,同时大数据技术与深度学习理论为知识表示提供了丰富的知识来源和有力的研究工具,给知识图谱的研究带来新的视角[12].RMDKG的网络关系路径中蕴含着丰富的信息,运用人工智能与深度学习技术研究RMDKR将成为未来的研究趋势.

3)TransE模型未考虑多源异质的信息,这些信息既可辅助知识表示模型更好的学习已有的结构化知识,也能提供结构信息之外的多模态信息.多源信息融入知识表示学习的研究还处于探索阶段,如融入实体文本描述信息、融入实体层次类型信息和实体图像信息等方法是未来RMDKR的研究趋势.

3.2 风险管理领域知识抽取

风险管理领域知识抽取(Risk Management Domain Knowledge Extraction,RMDKE)是面向多源异构的风险管理领域数据,通过手动或智能化技术抽取可用于风险管理的候选知识单元[13].RMDKE的抽取流程分为实体与触发词识别模块以及关系抽取模块,如图2所示.

图2 实体关系抽取系统流程

RMDKE主要是对风险管理领域文本进行知识建模,自动抽取领域实体间的语义联系,获得能有效解决风险管理问题的语义知识.早期RMDKE主要采用预定义实体间网络结构规则或词典驱动方法识别实体间的关系[14].Aone等人从大规模的领域文本中筛选领域实体,再利用已构建的词典实现实体关系抽取.该方法仅根据语义动词抽取实体关系,而无法抽取其他类型的实体关系,灵活性较差[15].随后,基于本体的RMDKE模型逐渐替代人工构建的规则与词典.Cimiano提出基于本体的实体关系抽取框架,该框架能自动抽取语义网中的实体关系形成知识库[16].任飞亮等人认为在已知风险管理领域知识基础上,较适合采用机器学习的方法进行领域本体库的构建[17].接着,有学者尝试将机器学习方法应用于实体关系抽取,常用的方法有基于特征向量的有监督方法、自举方法与协同训练的半监督方法、基于聚类算法的无监督方法等[18].Wang等人综合运用文本信息、语法分析树以及实体间依存关系等多维信息构造特征向量,并使用最大熵模型与文本语义特征相结合的方法进行实体关系抽取[19].该方法运用大量文本词句特征,有助于扩展实体关系规模,提升实体关系抽取效率.Eric等人提出基于随机特征映射的自举算法,根据领域文本词句特征抽取领域实体关系词,该方法可改善其对标注语料库的依赖[20].Huang等人面向特定应用领域,融合实体关系的不确定图模型与语义模板,构建全程无监督的实体关系抽取框架,自动抽取实体间的关系,有效促进无监督方法在具体领域的应用[21].

从大规模数据中获取风险管理领域实体及其关系,对风险管理的研究具有重要应用价值.传统机器学习方法在风险管理领域实体关系抽取过程中人工标注专业性不强,需进行大量特征工程,耗费时间且抽取效果参差不齐.因此,研究者尝试将深度学习方法引入风险管理领域实体关系抽取[22].深度学习是机器学习领域中新的方向,其本质是模拟人脑进行分析与学习的神经网络.目前,基于深度学习的实体关系抽取能够减少对标注数据的需求,并逐渐应用于非结构化的风险管理领域实体关系抽取.深度学习的实体抽取方法可挖掘风险管理领域实体与风险间深层次的特征与联系,在风险识别、风险预警与风险管理研究方面有着广泛的应用.Aarya等人提出基于卷积神经网络(Convolutional Neural Networks,CNN)的交通事故风险管理领域实体关系抽取模型[23].风险管理领域数据相比文献数据具有不完整和非结构化特性,抽取过程更复杂.Aarya运用词义特征、位置向量、词级向量等信息表示风险管理领域文本信息,并利用CNN方法进行实体关系抽取.该方法在风险管理领域实体关系抽取效果优于机器学习方法.在此基础上,Feng Jun等人针对特定领域文本语义信息丰富的特点,提出融合主题信息的卷积神经网络关系抽取模型,在不同环境下利用字符级与词语级卷积神经网络模型对领域实体关系进行自动抽取.该模型能有效提升传统CNN模型的抽取效果[24].基于CNN的抽取方法减少了对数据标注的依赖,但存在误差传播与噪音数据等问题.针对这一问题,肖毅等人融合CNN与注意力机制模型实现企业财务风险事件的抽取[25].另外,为加强对目标实体关系的注意力,肖毅等人在注意力机制上增加了实体关系的描述信息,辅助风险事件与预控方案的知识表示学习,获取最佳的实体关系知识库.Lei等人提出基于CNN的协同消噪方法.该方法包括两个CNN模块和一个协同消噪模块,先通过CNN模块进行领域文本语料库与知识图谱的学习,再利用自适应双向协同方法完成CNN模块间的学习,从而达到消噪的目的[26].

尽管基于深度学习的实体关系抽取能够减少对标注数据的需求,并逐渐应用于非结构化的实体关系抽取,但抽取效果仍有待提升.随着强化学习方法在科学、工程与艺术等领域的应用,有学者将强化学习方法与深度学习方法相结合实现实体关系联合抽取[27].陈佳沣等人提出基于强化学习的实体关系联合抽取方法,分为实体抽取与关系分类两个过程,如图3所示[28].首先运用神经网络方法模拟领域文本上下文信息,并将抽取过程视为序列标注过程;然后运用注意力机制生成包含目标实体的初始状态;接着用神经网络方法生成中间状态;最后利用强化学习算法得到抽取策略.该方法可以将实体信息运用至关系抽取过程,使实体与关系信息间能交互学习,有利于消除噪音数据,同时也减弱错误知识的传播.风险管理领域文本语义丰富,风险事件、风控方案等实体及其关系复杂,融合强化学习与深度学习的实体关系抽取方法是未来研究的新方向.

图3 基于强化学习的实体关系联合抽取过程

3.3 风险管理领域知识融合

风险管理领域知识覆盖面广且来源多样,存在知识分散、知识随时间动态演化、不同语言表达导致语义理解困难、不同数据源知识质量良莠不齐等问题.因此,国内外工业界与学术界通过知识融合方法,将多源异构且动态演化的知识通过检测方法进行正确性判断,并构建领域知识库支撑上层应用,从而挖掘风险管理领域知识价值[29].风险管理领域知识融合(Risk Management Domain Knowledge Fusion,RMDKF)过程中,如何评价领域知识的质量,降低领域知识理解的不确定性,挖掘领域知识的真值,并将高质量的知识更新到领域知识库是知识融合研究的重要内容[30].RMDKF方法有实体对齐、实体链接以及关系推演等.其中,实体对齐用于消除风险管理领域知识的异构性;实体链接是运用消歧降噪等技术减少知识的不一致;关系推演用于挖掘数据库中更深层次的隐性知识,扩充风险管理领域知识库.

3.3.1 实体对齐

实体对齐指判断相同或不同数据库中的实体是否对应现实世界统一对象的过程.实体对齐方法分为两类,包括基于实例及其属性相似度的成对实体对齐以及在成对实体对齐基础上基于实例间相互关系的集体实体对齐.

Singh等人运用逻辑连接词将依赖关系表示为布尔匹配函数,然后通过智能化处理自动生成布尔匹配函数,从而判断是否是同一实体[31].基于实例及其属性相似度的实体对齐方法直观简单,但是该方法依赖于大量先验知识.为解决这一问题,有学者尝试使用基于实例间作用关系的集体实体对齐方法.基于实例间作用关系的集体实体对齐方法是在成对实体对齐方法的基础上综合考虑实例间作用关系以计算相似度.为进一步提升实体对齐模型的性能,有研究者将机器学习运用于领域知识图谱中实体对齐的研究.Zhuang等人运用机器学习的方法对领域知识库进行粗粒度对齐;然后通过推理模型推测问题的答案;最后借助容错算法获取实体对齐结果[32].深度学习是机器学习领域新的研究方向,也逐渐开始应用于知识库实体对齐.余传明等人针对知识融合中存在数据冗余与不一致的问题,以知识图谱为视角,提出基于深度学习的领域知识对齐模型.该模型使用多源异构与跨语言数据集进行计算实验[33].实验表明该模型改善了实体对齐的效果,提升了领域知识的正确率与覆盖率.知识对齐方法在解决实体冲突等不一致的问题上取得了一定的研究成果,但针对风险管理领域知识对齐仍存在亟待解决的问题,概括起来有以下两方面.一方面,风险管理领域知识库中数据量巨大、结构复杂,对实体对齐模型的性能与扩展性要求更高.有学者尝试运用并行与分布式算法解决实体对齐模型性能与扩展性问题.另一方面,目前大部分实体对齐的研究仍集中在离线处理阶段,而风险管理应用环境下更需要实时处理领域实体对齐,因此需要更高效的实时算法解决风险管理领域实体对齐问题.因此,构建稳定、可扩展的风险管理领域实时对齐任务模型是未来研究的重要方向.

3.3.2 实体链接

实体链接指运用风险管理领域知识库中的实体对从领域大数据文本中识别领域知识库中与其对应的映射实体.依据实体链接使用信息不同,实体链接方法可分为基于实体属性的实体链接方法、基于实体流行度的实体链接方法、基于上下文的实体链接方法与基于外部证据的实体链接方法.本文对各类实体链接方法进行比较分析,具体如表3所示.

表3 实体链接方法的对比分析

3.3.3 关系推演

RMDKG构建过程中通过实体对齐与实体链接能够形成初步的本体库,但风险管理领域知识库的需求与设计理念的不同导致知识库中存在大量异构数据[34].因此,还需运用关系推演方法将动态生成的实体关系不断更新已有的风险管理领域知识,从而形成高质量的风险管理领域知识库.

RMDKG中实体关系存在两种情况:1),风险管理领域知识库中存在与目标实体关系等价的实体关系,只需找到与之对应的实体关系;2)风险管理领域知识库中不存在与目标文本实体关系等价的实体关系,则需要将实体关系扩展合并到知识库,完成与风险管理领域知识库的关联合并.

关系推演方法包括基于语义的关系推演与基于嵌入学习的关系推演.彭春光等人根据特定领域的交互信息,提出基于语义交互的关系推演模型,通过对比描述关系的上下文语义的相似度来判断是否为同一关系.该方法能有效解决上下文语义相对简单的实体关系推演问题,而对于风险管理领域中遇到的各种复杂语义关系推演效果不佳.基于此,有研究者尝试基于嵌入学习的关系推演方法.Dong等人通过嵌入式学习技术探寻合适的函数训练实体的嵌入表示,并判别两个描述实体的关系是否为同一关系[35].实验表明该方法能够显著提升实体关系推理效果.

综上,RMDKF技术取得了一定成果,但仍需大量的人工干预,高效的融合算法仍有待研究.

3.4 风险管理领域知识推理

风险管理领域知识推理(Risk Management Domain Knowledge Reasoning,RMDKR)指在已知风险管理领域知识库的基础上深入挖掘知识库中蕴藏的隐性知识,从而扩充已知风险管理领域知识库.而RMDKR具有行业特殊性,即使相同的风险,仍需根据其行业内外部环境作出不同判断,因此RMDKG需处理大量矛盾数据,增加RMDKR的难度.

RMDKR方法包括传统的知识推理方法、基于人工智能的知识推理方法以及面向图谱的知识推理方法,具体方法见图4.Gentzen等人最早提出演绎推理方法,将演绎推理引入经典逻辑推理过程[36].Huang等人运用语义描述逻辑与语义谓词逻辑等规则推理训练网络分类模型[37].基于逻辑、规则与案例的传统知识推理方法在RMDKR方面取得了一定进展,但仍存在数据利用率不高、准确率低、学习能力不足等缺陷,难以满足RMDKR的应用需求.

图4 风险管理领域知识推理方法及研究趋势

随着风险管理领域大数据规模的增长,传统的知识推理方法存在推理时间过长、数据遗漏等问题,而人工智能方法可从海量的风险管理领域数据中获取知识真值,有效提升RMDKR的效率.基于人工智能的知识推理方法主要包括神经网络、遗传算法等[38].基于神经网络的知识推理是利用神经网络的学习能力与泛化能力构建实体关系事实元组.Socher等人利用神经张量参数表示实体间的关系,并准确关联实体向量,通过现有风险管理领域知识库推测其他实体关系事实[39].但在风险管理领域,不仅需要挖掘隐含关系,还需挖掘外部实体链接到风险管理领域知识库.因此,Chen等人在此基础上,再通过已有的风险管理领域知识库挖掘其外部新的实体关系,并将其更新到风险管理领域知识库[40].如何从风险管理领域知识库中挖掘最相似的实体关系决定了知识推理的性能.Kai等人使用改进的遗传算法对风险管理知识库中的特征权重向量进行优化,改善了知识推理性能[41].

无论是基于规则与案例的知识推理方法,还是基于人工智能的知识推理方法均将RMDKG作为知识推理的数据源.而面向风险管理领域知识图谱的知识推理则是将知识图谱视为图,将风险管理领域实体视为节点,实体间的关系视为边,通过实体间关系路径所蕴含的信息对其语义关系进行推理.面向RMDKG的知识推理方法主要包括路径约束随机游走算法与路径分级算法.Lao等人认为面向风险管理领域知识图谱的知识推理的基本思想主要是将实体视为节点,将关系或属性视为边,从源节点开始,在知识图谱上执行随机游走算法,若源节点能够通过某一路径达到目标节点,则可推断源节点与目标节点之间可能存在关系[42].目前,面向知识图谱的知识推理方法取得了一定的效果,但风险管理领域知识结构复杂、知识图谱的不连通与稀疏性且随时间动态变化,这将严重影响知识推理的性能.因此,针对风险管理领域知识结构复杂多样的特性,Jasper等人运用具体实例集合表示领域实体间的多元关系,实体关系类型的具体事实表示为关系实例,组成关系实例的各要素视为领域实体[43].该方法能减少多元关系结构信息的改变,但在此基础上如何提升知识推理的灵活性将是未来研究的一个重要方向.针对RMDKG的不连通与稀疏性,Yang等人运用神经网络强学习和基于规则与案例相结合的方法,并融合多源信息进行知识推理,进一步提升模型的准确率与可解释性,这也将成为未来知识推理的研究方向之一[44].此外,RMDKG随着时间的推移而动态变化,Bellomarini等人运用知识图谱各模块的并行学习与集成推理方法,有效处理知识图谱的增删改,有助于实现风险管理领域知识的动态推理,这也将是未来知识推理的研究方向之一[45].

4 风险管理领域知识图谱应用

知识图谱为风险管理领域多元异构的大数据组织与管理提供更智能化的处理方式.目前,RMDKG主要用于风险智能识别、风险自动预警与风险智能处理等方面.

4.1 风险智能识别

面向知识图谱的风险智能识别是运用知识图谱技术,结合风险辨识、风险分析等风险管理方法,实现风险管理领域文本高效分析与智能化识别,有效防止误判情况的发生.

王新浩等人认为风险识别是运用风险管理领域词典,挖掘风险事件中蕴含的文本特征,选取风险特征词,构建风险管理领域知识库,并对风险管理领域知识进行可视化处理的过程[46].该过程将非结构化风险管理领域文本数据转化为RMDKG的形式,实现风险管理领域文本初步的挖掘与分析,为后续的风险预警与处理提供数据支撑.此外,有研究者们针对这一领域进行了深入的研究.Franco等人使用Protégé构建基于本体的风险管理领域知识库,并对风险事件的关键字与相关内容进行标注,再借助Jena推理工具对风险管理领域知识库模型进行推理,通过自定义风险识别语义规则,实现对风险信息的识别与推理[57].实验结果表明,该方法能够快速发现多维风险关联信息,从而提高风险信息的识别效果.Hyunsoo等人基于概念而非关键字的风险识别方法,该方法将基于术语的风险管理领域原始文本转换为基于领域本体定义的风险管理领域的概念,实验结果表明该方法能够有效提升风险识别准确度,并为实现基于知识推理的风险识别系统提供了理论框架[48].针对目前风险识别系统自我学习能力的不足以及传统案例推理过度依赖历史案例的缺陷,Guilherme等人从工程领域风险识别过程出发,提出基于深度学习与案例推理的智能风险识别系统[49].该系统通过对风险领域案例的分析,结合本体技术构建风险管理领域案例库,并融合深度学习的算法用以支持工程领域风险信息的识别.

目前,风险识别方法存在数据来源与数据类型简单、研究角度片面等问题,归根结底是风险管理领域知识组织的问题,风险管理领域大数据的价值在于其蕴含的隐性知识.因此,从RMDKG的角度出发,丰富特定领域知识应用模式,充分发挥知识图谱对风险识别的作用,是未来研究的趋势之一.

4.2 风险自动预警

知识图谱技术为风险管理领域大数据分析与应用提供了技术支持,从海量风险管理领域数据的抽取与表示到多源异构风险知识融合再到潜在风险知识推理,形成完整的RMDKG技术路径,为实现风险自动预警提供了新思路.风险自动预警系统是风险智能识别系统的一种高级形式,能够通过评价各种风险状态偏离警线的强弱程度向决策层发出预警信号并提前采取预控对策.面向知识图谱的风险自动预警系统旨在整合基于知识图谱的风险识别与风险评价方法,设计适用于大数据环境下特定领域的风险预警模型,并根据预警模型自动将预警信息以图谱方式直观地展现给决策层.

研究人员针对知识图谱与风险自动预警系统的融合进行了相关研究.邱玉霞等人运用文献分析法与知识图谱分析工具对网络组织风险研究视角与研究领域进行可视化分析,并基于共被引文献分析,探讨了网络组织风险形成、传导与演化机理,深入研究了网络组织风险预警基本模式,为基于知识图谱的组织风险评价与预警研究奠定了基础[50].Nazim等人利用文本抽取、领域数据融合与数据挖掘等技术,探索RMDKG自动化构建方法与风险管理标准化流程,实现基于知识图谱的风险自动预警[51].Chen Li等人针对RMDKG在辅助风险自动预警过程中缺乏管理者或专家经验知识的问题,提出一种集成RMDKG与深度学习的风险预警方法[52].该方法的关键在于构建知识驱动的卷积神经网络模型,通过实体链接消歧与知识图谱嵌入结构化的风险管理领域知识,并将风险事件描述的风险特征词向量与领域实体向量作为卷积神经网络的多通道输入.

目前,融合深度学习的风险管理知识图谱在金融监管领域得到广泛的应用.深圳市金融办与腾讯公司合作共建金融风险预警监测平台.该平台利用知识图谱、数据挖掘与深度学习等技术手段,整合互联网舆情、政府资源数据、银行资金数据等大数据,对深圳市金融企业进行金融风险提前预判.此外,上交所也在积极部署监管科技,提出利用深度学习结合金融机构知识图谱对上市公司风险进行监测预警,提高分类风险管理效率,提升金融业监管服务水平.

4.3 风险智能处理

风险智能化处理是指综合考虑风险性质、大小以及风险承受能力、风险管理能力与核心竞争力等因素,利用数据挖掘、云计算、机器学习与知识图谱等技术手段,以数据价值为驱动构建智能化的风险处理模型,并运用该模型自动选择合适的风险管理策略和工具,对所面临的风险进行处理.面向知识图谱的风险智能处理系统通常是将复杂的风险管理问题简化为多个小问题,然后运用智能语义搜索方法从风险管理领域知识库中匹配风险预控方案,并自动检测风险预控方案在时间与空间上的匹配度等,最后将风险预控方案进行整合,用以迅速应对所面临的风险,并以图谱的方式将风险智能处理结果反馈给管理者.

中国互联网络信息中心(CNNIC)针对本次新冠疫情以及防控疫情中引发的网络舆情风险问题,尝试利用机器学习、关联挖掘、大数据分析等技术构建突发事件网络舆情风险指标体系、评价重大突发事件网络舆情风险程度以及针对不同程度的风险给出相应的解决方案,为跨区域协同处理重大突发事件网络舆情风险提供范本.此外,很多研究者针对风险智能处理领域知识图谱的应用进行了相关的研究.Bao等人体提出了基于风险管理领域知识库的风险智能决策模型[53].该模型通过风险管理领域知识库分析风险特征、类型及危害程度,并给出相应的解决方案.陈晓军等人针对目前金融领域知识图谱存在信息缺失且准确率低等问题,利用知识图谱中图展示、图挖掘以及图模型计算等优势,构建了企业风险知识图谱,并基于企业风险知识图谱构建了智能问答机器人,实现了知识图谱的检索与利用,为面向知识图谱的企业风险智能化处理提供了重要参考[54].LIU等人基于商业银行知识图谱分析应用体系,构建企业关联关系知识图谱,并运用随机游走与图嵌入算法,实现了知识图谱在商业银行风险管理中的应用[55].实验结果表明,该模型能够较好地抽取风险结构信息,并能有效提升风险处理的准确性.

总的来说,基于知识图谱的风险智能处理模型通过机器学习、数据挖掘等技术,并融入具体领域的情境信息,能够有效解决风险智能处理过程中信息缺失、准确率低且耗时较长等问题.但是,目前大部分RMDKG都是处理静态风险管理问题,未考虑RMDKG中重要的时间信息,缺乏利用时间信息表示风险管理领域更丰富的动态信息,不能推理RMDKG在时间上的动态演化过程.因此,将时间信息引入RMDKG是未来的研究方向之一.

5 总 结

随着各领域信息化水平的不断深入,风险管理领域积累了大量的数据,数据的充分利用对风险智能识别、风险自动预警与风险智能防控等工作具有重要的意义.将知识图谱技术融入风险管理领域,开展RMDKG研究,通过海量风险管理领域数据的抽取、表示、融合与推理,构建RMDKG,最终向决策者提供风险管理领域的知识服务.与传统的风险管理模型相比,本文从知识图谱构建的视角出发,介绍和分析了RMDKG架构、RMDKG构建的关键技术以及风险管理领域应用现状与进展,并讨论了今后的发展方向.目前风险管理领域知识图谱构建技术日渐成熟,但依然需要研究者投入大量精力进行不断探索,通过对现有风险管理领域知识图谱研究工作的总结,在以后研究中可以从以下几个方面展开相关研究.

1)开放领域实体关系抽取的深入研究.在风险管理领域知识抽取环节,面向开放领域的实体关系抽取大多面向特定关系类型或特定领域,部分研究成果仅在特定的数据集和语料库上取得较好效果,但仍存在准确率低、扩展性差、约束较多且其他领域自动迁移能力差等问题.如何不断提高系统的准确率、可扩展性以及可移植性,这激励着学者们对开放领域实际关系抽取展开更深入的研究,促进风险管理领域实体关系抽取的发展.

2)风险知识融合方法需不断改进.风险知识融合的主要挑战是实现多源异构数据的有效链接.虽然风险管理领域知识融合技术取得了一定的成果,但仍需大量的人工干预,如何有效解决多源异构、语义多样与动态演化的风险管理领域知识组织的问题,这将吸引着学者们不断改进现有相关算法,不断提升知识融合模型的性能.

3)融合多源信息与多种方法的动态知识推理模型性能的提升.近年来,越来越多的研究人员关注人工智能与深度学习相结合的知识推理方法.在此基础上,融合多源信息的知识推理模型能够有效解决风险管理领域知识图谱的不连通与稀疏性.另外,运用知识图谱各模块的并行学习与集成推理方法有助于实现风险管理领域知识的动态推理.然而,融合多源信息与多种方法的动态知识推理模型性能还需进一步改进,不断促进风险管理领域知识融合的发展.

4)风险管理领域知识图谱应用的深入探究.知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领域.通过学术研究与风险管理需求进入深入融合,不断提高风险管理领域知识图谱的运行效率,促进风险管理领域知识图谱模型性能的提升,为风险管理者在风险智能识别、风险自动预警与风险智能处理等方面提供更多便利.

猜你喜欢
知识库图谱实体
基于图对比注意力网络的知识图谱补全
“植物界大熊猫”完整基因组图谱首次发布
汉语近义词辨析知识库构建研究
知识图谱的候选实体搜索与排序①
实体书店步入复兴期?
图表
2017实体经济领军者
关于推动实体书店经营发展的几点思考
我国联合虚拟参考咨询系统知识库现状研究*
——基于与QuestionPoint的对比
位置与方向测试题