文本分类在医院客户关系信息系统的应用研究

2015-05-10 07:42林雪云

重庆科技学院学报（自然科学版） 2015年3期

林雪云

(福建师范大学福清分校电信学院，福建福清 350300)

医院客户关系信息系统(HCRM)［1］是指以数据以及医疗服务流程为基础，结合医患沟通策略以及医疗服务营销策略，结合医学和信息技术，将企业与客户之间的关系管理经验融入到医院日常的管理和服务理念中来，建立起以医患关系管理和患者医疗服务为中心的信息管理系统。HCRM的构建能够使医院的医疗信息化水平得到更大程度地提升，医院中的医患关系得到改善，能够使患者对医院医疗服务的满意程度得到显著提升，最终建立起医院和患者之间的一种互信关系，创造并且提升医院在品牌上的优势。其核心是医疗知识库的自动化答复，而对用户输入的文本进行处理是HCRM的重要前提。

当前HCRM构建的研究重心主要是在对医院信息系统(HIS)、临床信息系统(CIS)以及电子病历系统(EMR)的研究［2］，主要目标是如何高效地让患者接受诊疗。目前现有的HCRM系统存在很多缺点，表现在:(1)对患者诊疗后的回访欠缺相应的管理体系;(2)在健康关怀管理上“一对一的对患者服务”过于耗费精力、物力;(3)对患者满意度的识别和测度体系欠缺。

笔者研究的HCRM系统首先通过文本分类，建立数据仓库中相对应的数据表来管理医院客户信息;然后使用基于朴素贝叶斯算法［3］的文本分类来对文本进行分类处理。文本分类能够通过对患者提问的内容进行特征词的抓取，很好地解决患者提问答复的问题。

1 文本分类

1.1 文本分类的定义

文本分类是通过计算机对文本集等按照一定的分类标准进行自动化的分类标记，是基于分类体系的一种自动分类，也是一种基于资讯过滤以及用户兴趣的自动分类［4］。

分类体系是以词的统计为标准来对关键字进行分类，通过人对文本以及类别关联度判定来学习文件的用字和所标记的类别之间的关联［5］。

1.2 文本分类的一般过程

一般情况下，文本分类的过程包括对文本的预处理、对文本的表达、对分类器的选取与训练、对分类结果的评判以及反馈等过程，其中对文本的表达过程又可以被细分为对文本进行预处理、索引以及统计等步骤［6］。

一般而言，文本分类的系统有6个功能模块。(1)预处理模块:格式化原始语料为同一种格式，以便在后续的操作中对其做统一的处理;(2)索引模块:分解文档为基本的处理单元，在分解的过程中同时降低在后续步骤中处理的开销;(3)统计模块:通常即指对词频的统计，统计主要针对项(概念、单词)与分类之间相关联的概率;(4)特征抽取模块:抽取反映文档主要特征的内容;(5)分类器模块:对于分类器的训练，笔者在这一过程中增加了机器自主学习的过程;(6)评价模块:对分类器所得到的测试结果进行分析。

1.3 文本分类技术难点

文本分类的主要难点是分类器的构建。因为对于一个文本是否能够准确的分类至一个文档中，至关重要的一步就是对训练集的处理，即运用何种算法进行分类操作。此外还有一个技术难点是源于中国文字的博大精深，因为许多词语很容易被误判成语气词以及停用词，从而导致文本的预处理经常出错。

笔者认为文本分类未来的改进方向主要就是解决以上难点，该难点对于分类器的构建始终是优化文本分类的重中之重。

2 文本分类在HCRM中的具体实现

文本分类在很多领域都扮演着不可或缺的作用，在HCRM系统的构建中也起着关键性的作用。

2.1 HCRM系统的主体框架

文中HCRM系统的主体框架如图1所示:从用户中获得数据(关于要查询内容的语句)，通过在医疗知识库已经用文本分类预先建立起来的文本分类模型对用户的查询文本进行分类，得到用户所查询的病的病根如感冒后，再返回数据库中调用与感冒相关的知识内容，将得到的内容通过医患交互界面呈现给用户。从而得到用户的满意度信息，将这一信息中满意度较高的文本直接加入分类模型中，而对较低者再指定医护人员解决。这样便能大大减轻医院工作负担，提高工作效率。

图1 HCRM系统的主体框架图

2.2 文本分类模块的实现

HCRM系统中几乎所有的功能都是围绕着文本分类展开的，因此对基于文本分类的医疗知识库进行分析。

2.2.1 实现流程

文本分类系统在HCRM中应用的框架图，主要用到的数据库为资料中心以及信息管理。文本分类应用流程图见图2:通过对客户在医疗知识库中查询信息的文本分类得到其中的关键词;通过对关键词的词频分析，对文本类别进行区分;再从后台数据库中调用相应文本类别的数据，即患者所得病症以及日常所需注意的医疗保健方法的简单判断;最后回收判定结果满意度信息，并加入后台数据库中。如果数据中满意度较高，则可将这一判断作为一个新的分类规则加入已有模型中，这样的判定系统会随着使用次数的增加而更加地准确。

图2 文本分类应用流程图

2.2.2 关键节点实现

在医疗知识库中，因为要对用户所提出的或者想了解的病症信息进行回答，而专门聘用医生对医疗知识库中病症原因以及相应的养生保健知识进行回答。不仅耗费人力物力，也可能因为医生一时地疏漏造成用户对医院形象不可挽回的后果。而HCRM系统就能很好地解决这一问题。针对用户的问题，计算机能够运用文本分类给予用户及时准确的答复，在提高效率的同时也增加了用户对院方的满意度。

文本分类在医疗知识库中应用时主要是对患者输入的病症进行判定，得到病因，将病因反馈回数据库中以便数据库调用与病因相关的食疗等医疗保健方法。

在进行模型训练与模型测试时将所有文本随机分成2部分:70%的数据用于模型训练，30%的数据用于模型测试。

2.2.3 模型训练

通过案例对上述分词、文本特征提取过程、分类算法来具体说明文本分类在HCRM中的应用。仅以对一个文本的处理为例，在实际建立分类模型时其实是对大量这种文本的处理。

案例语料库:“我最近感觉发烧、流涕、四肢无力”。

初步分词后的结果为“我”、“最近”、“感觉”、“发烧”、“流涕”、“四肢无力”。之后再剔除单词“我”、无用词“最近”、“感觉”。最后得到的结果即为“发烧”、“流涕”、“四肢无力”。

文本特征提取结果为“发烧”、“流涕”、“四肢无力”。

通过朴素贝叶斯算法计算词频，得出权重后将其记录在一个类下。在模型训练中类的初始分类是通过医生判定，上述症状为感冒症状，所以归为感冒类。输出结果为感冒类:“发烧”0.4、“流涕”0.3、“四肢无力”0.3。处理后的文本中出现上述情况的即可判定为感冒，再从后台调用相关感冒的医疗方法等的介绍内容，最后通过用户评价反馈对已有的分类模型进行修缮，即把用户满意度高的结果直接加入模型中，作为文本分类的一个标准。而对其中准确度评价较低的需要指派医生作出正确答复的也加入到模型当中去。这就是一个自主学习的过程，且随着模型对大量数据的分类判断后，模型判断的准确性将不断被提高。

2.2.4 模型测试

让用户在已经建立好的医患交互平台中输入想要查询的内容，通过已经建立的文本分类模型对文本进行分类，得到患者想要查询的病症、病因。然后让医生针对该文本中的病症情况判定病因，将两者的结果进行对比，如表1所示。

表1 模型判定与医生判定结果对比表

模型测试是针对模型训练以外的文本，因为此类文本并未进入模型训练中，所以对计算机而言，这30%的文本都是新文本。测试结果即分类器的性能评价如表2所示。朴素贝叶斯分类器的判定准确率高达94%，而这一数据将会随着之后不断对于新文本的处理而提高，这说明本方法在HCRM系统应用中的有效性。

表2 病因结果自动分类判定邻接表 %

3 结语

针对传统的医院客户关系管理系统在对客户信息回访欠缺以及对客户满意度重视不足等问题上提出改进的医院客户关系管理系统，提高医院和客户交互信息的处理速度。但本HCRM系统的不足之处在于如果初始语料库不够大，用户的部分检索将得不到相应的回复，这样的查询和回复结果将无法进入机器的自主学习过程。例如:用户搜索“传染病”等字眼，假设这些字眼未被收入在初始模型中，那么用户得不到结果，则满意度不会高甚至于没有满意度反馈，这类结果将永远进不到机器自主学习的过程中。

因此，笔者认为HCRM系统未来的一个改进方向是对初始语料库的增加，选取更加完备的医疗初始语料库。除此之外，找到一种优于朴素贝叶斯算法的算法亦是系统的改进方向之一，因为HCRM系统数据挖掘中文本分类的准确性和效率的关键是所运用的算法的优劣。

［1］何荣勤.CRM原理·设计·实践［M］.第2版.北京:电子工业出版社，2006:426-429.

［2］王永贵.客户关系管理［M］.北京:清华大学出版社，2007:70.

［3］马刚，李洪心，杨兴帆.客户关系管理［M］.大连:东北财经大学出版社，2005:137.

［4］罗纳德·S·史威福特.客户关系管理 — 加速利润和优势提升［M］.杨东，译.第2版.北京:中国经济出版社，2004:5.

［5］范云峰.客户管理营销［M］.北京:中国经济出版社，2003:400.

［6］格哈德·拉普，霍佳震，妮可·维尔纳.客户关系管理:一个整体方案［M］.上海:上海社会科学院出版社，2012:124-127.