含非连续性信息多属性案例中的决策知识发现方法

2014-05-16 08:57梁昌勇顾东晓程文娟杨昌辉顾佐佐
中国管理科学 2014年4期
关键词:遗传算法权重决策

梁昌勇,顾东晓,3,程文娟,杨昌辉,4,顾佐佐

(1.合肥工业大学管理学院,安徽合肥 230009;2.安徽大学艺术与传媒学院,安徽合肥 230011;3.南京大学信息管理学院,江苏南京210093;4.安徽省产业转移与创新发展人文社会科学重点研究基地,安徽合肥 230009)

含非连续性信息多属性案例中的决策知识发现方法

梁昌勇1,顾东晓1,3,程文娟1,杨昌辉1,4,顾佐佐2

(1.合肥工业大学管理学院,安徽合肥 230009;2.安徽大学艺术与传媒学院,安徽合肥 230011;3.南京大学信息管理学院,江苏南京210093;4.安徽省产业转移与创新发展人文社会科学重点研究基地,安徽合肥 230009)

医疗决策案例中非连续性属性信息大量存在,含该类信息的案例知识发现是多属性案例决策的关键和难点。该文研究了含非连续性属性信息案例中的决策知识发现,将条件概率和GAs融合技术整合到案例推理方法之中,开发了KNN的延伸方法——CRMGACP法。该方法的核心是基于Gas进行权重获取和基于融合条件概率的改进相似度算法进行案例知识获取。在某大型综合医院收集数据,获取有效数据300条,基于VC++开发实现的BC-CBRsys平台进行了实验研究,结果表明CRMGACP比其他常见方法具有更好的性能,在多个统计指标上展示出显著的优势。显然,改进的案例决策方法克服了含非连续性信息案例决策知识难以获取的问题,在临床决策领域具有广阔的前景。

复杂多属性决策;公共卫生管理;知识发现;离散变量;案例推理

1 引言

本研究将关注一类相对较为特别的医院诊疗决策案例,即非连续性属性为主体的健康案例。这里的非连续性属性主要指离散型属性,包括但不等同于逻辑属性。在医院诊疗决策中,医生所能获取知识和信息的量和质一定程度上决定着医生诊断的质量,因此诊断过程中知识和信息的支持非常重要。为了帮助医生更为有效地进行决策,各种辅助技术现有被研发出来,如逻辑回归(Logistic Regression)[1]和人工神经网络模型(Artificial Neural Network)[2]。其中较早较有影响的是Mangasarian,Street,Wolberg等人使用线性规划方法基于小部分细胞病例切片对乳腺癌进行诊断和预测,其研究成果在威斯康星大学医院获得了应用。此外,贝叶斯网、统计学、决策树等方法和工具先后被研究用于医学辅助诊断和预测。虽然以上这些方法可以或多或少提供帮助,但由于不符合医生大脑判断的流程和思维习惯,所以真正实际被应用的却很少。本质上来说,诊疗过程本身是高度依赖历史经验知识的,而这正是案例推理技术(Case-Base Reasoning,CBR)的优势所在。现有CBR研究文献涉及多属性决策、模糊决策、协同决策等许多具体决策问题的研究与求解,并取得了成功。但已有成果大都面向工业界,所研究的案例属性信息相对较为常规。综合分析国内外相关文献,CBR在医疗多属性决策领域的研究并不深入,难以适应复杂、高精度要求的医疗决策需求,存在的主要问题是在医疗决策案例类型、维度以及信息处理复杂度方面考虑不足,缺乏对高效医疗决策知识获取方法和手段的研究[3-5]。虽然越来越多的学者正在关注多属性案例决策方法的研究,但含离散变量的多属性诊疗决策问题却一直未得到有效解决。为了解决此类问题,本文将遗传算法(GAs)和条件概率(Conditional Probability,CP)整合到案例推理技术中,提出了一种适应含离散变量诊疗决策案例的案例推理方法CRMGACP法(Case Retrieval Method based on Genetic Algorithm and Conditional Probability)。CRMGACP是一种融合了条件概率和遗传算法的案例推理技术,可以用于帮助医院构建一个知识支持系统,辅助医生进行决策。在接下来的部分将介绍我们用来解决所研究问题的研究、设计和方法论,具体包括案例识别算法、数据集、实验设计和相应的实验结果。

2 案例检索

基于欧氏距离的最近邻算法一直是最为常见的案例检索算法,并没成功地应用于各种CBR系统中[6]。该方法处理连续性属性的计算效果尚可,但对于离散型属性的计算,则效果不佳。非匹配离散型属性(Nonmatching Discrete Attributes)对距离计算的贡献最大而匹配属性(Matching Attributes)则完全没有贡献[7]。对于逻辑属性,这种处理方式是合理的。但对于非逻辑型的离散属性,则问题就出现了。为解决该问题,Stanfill和Waltz[8]提出了值差异矩阵(Value Difference Metric,VDM)。之后,Wilson和Martinez[9]进一步提出了几个基于VDM的新矩阵。例如:与Gower插值VDM[10](Interpolated VDM,IVDM)相似矩阵类似的异构值差异矩阵(Heterogeneous Value Difference Metric,HVDM)和视窗VDM(Windowed VDM,WDVM)。WDVM与IVDM类似但是其更为成熟的一个版本。IVDM和WDVM可以被看作VDM的一个拓展版本,它通过离散化和进行概率计算来处理连续性属性。

IVDM和WDVM的基本思想是,样本计算的前提是所有连续性属性必须被离散化。也就是说,这些方法似乎本质上依然是离散型属性的计算方法。而且,这些方法还有一个弱点,即随着离散化程度的变化,相似度值可能也是不固定的。也就是说,虽然数据集是相同的,当选择不同的离散程度,检索的结果也可能不同。还有另外一个局限,IVDM和WDVM中权重的概念在现实世界特定的研究问题中很难被解释。

同一个属性有不同的权重这一点并不容易被理解和接受。有没有一种有效的方法可以同时解决连续性和离散型属性的直接计算,而不通过离散化连续属性值?根据我们后续的研究,这个问题的答案是肯定的。本研究中,我们将遗传算法和条件概率整合到案例推理技术当中,提出了主要面向含非连续属性案例的CRMGACP法。CRMGACP可以解决同时含连续性和离散型属性案例的知识发现,而且更符合人们的习惯。

为了比较需要,在后续的实验中,我们也研究了固定权重法和颇受欢迎的德尔菲法权重获取下的案例检索。其中,德尔菲法是一种重要的专家权重法。CRMGACP包含两个方面的关键步骤,权重获取和相似度计算。为此,我们围绕着权重获取方法和相似度计算算法进行研究,将遗传算法应用于权重获取过程,整合条件概率到传统的基于欧式距离相似度算法。

2.1 权重获取方法

权重获取问题存在于许多领域的研究课题当中[11]。好的权重获取方法可以较大幅度提高CBR系统获取知识的精度。有关权重获取方法研究的成果极其丰富,近年来在辅助决策领域较有影响的如Renauda等人[12]提出的OWA算子权重获取法,主要用来解决工业决策领域的权重确定问题。此外,Zhi-hong Zou等人研究了物理熵在水质量评估问题中的权重获取中的运用思路,其研究的深度尤其是实验的完善方面还有较大的提升空间,否则难以真正推广应用。传统的最近领算法中,所有特征属性的默认权重都固定为1,虽然处理起来较为简单,但解释起来却难以被人接受。CBR实践中,德尔菲法(DELPHI)和层次分析法(AHP)也是两种较受欢迎的方法。但这两种方法的准确性却差强人意,因为主观性较大。此外,线性规划方法(Linear Programming)、决策树法(Decision Trees)、遗传算法(Genetic Algorithms)等[14-15],但是这些方法大都面向特定的领域问题提出的有着较为严格的使用条件限制,难以推广应用在更多的实际问题中。针对本课题的研究内容,我们提出了基于遗传算法的权重获取方法(GA-Weight),讨论了用遗传算法来获取案例库上的特征项权重,给出了具体的算法。该方法可用于权重发现。

在CBR系统使用的多种案例搜索技术中,遗传算法是其中一种非常有效的随机搜索方法。它是一种基于生物进化论和遗传学机理的概率搜索技术,建立在适者生存的原则上,即最合适的个体将被选择去产生下一子代[16],其本质是一种自然选择和人类遗传学机制下的搜索算法[17]。群体搜索策略和个体之间的信息交换是GAs的两大特点,特别适用于信息量大且复杂的搜索空间。GAs一般通过初始化产生表示问题解的初始群体,然后用事先定义的适应度函数评价群体中的每个个体;以后的每一代的个体都按照适应度函数的值进行选择,并且通过遗传算子的进化产生新的适应性更好的群体。通过这种机制,遗传算法可以收敛到全局最优解或次优解。作为自然选择和演化理论指导下的全局优化技术,遗传算法在在理论上和实证上都已经被证明是鲁棒的搜索技术(Robust Search Techniques)。使用GAs获取各个特征属性最佳权重的过程和基本步骤如图1所示。为比较研究的需要,专家评价权重和固定权重也将在后面的实验中被研究。

下面对图1进行进一步的补充说明。在Step 3,需找适宜度值的目的是为了保持好的染色体。每个染色体的适宜度值将于当前最好的一个进行比较,加入当前染色体有更好的适宜度值,新的一个将被用于制造下一代染色体。以下介绍训练集适宜度的计算。

(1)目标函数

(2)Pi的计算

令参考案例集为Rc={r1,r2,…,rn},j=1,2,…,n,训练案例集为Tc={t1,t2,…,tn},i=1,2,…,k

在Step 5,使用了轮盘赌选择方法,适应度函数代表轮盘上每根弦的面积比例,也代表被选择交叉的比例。染色体适应值越大表示选择交叉的概率越大。用p(x)表示该概率,每个染色体被选的概率定义如下:

则有:

在Step 4,训练集适应度函数的目标函数为:

2.2 融合条件概率的相似度计算

CRMGACP中不含遗传算法权重处理的那一部分称之为NCCRA算法。该算法包括一个数据标准化的步骤。所有的属性都将会被归一化以减少不同数量级、不同单位、不同量纲的影响。这样数据就可以在相似度计算时能够进行比较。NCCRA算法

图1 使用GAs获取各个特征属性最佳权重的过程和基本步骤

可以通过以下模型进行描述:其中,ξ(tf,xif)=∑y∈Y(P(y|tf)-P(y|xif))2

上式中,P(y|tf)为类标签y在给定特征变量值tf下的条件概率。q(tf)计算如下:

需要注意的是,上式中,q(tf)随着tf值的变化而变化,即q(tf)依赖于tf。对于特定的医院诊疗决策案例属性,y并不唯一。这并不符合传统的权重的定义。因此,q(tf)看起来似乎更像一个概率因子(Probability Factor)而不是权重变量(Weight Variable)。

CRMGACP方法可以被看出KNN法的拓展。相对于传统的KNN法,连续性的因变量保持不变但逻辑变量被延展到所有的离散变量[18]。

3 研究设计

3.1 数据收集

为了本研究的需要,我们用了七个月时间在一家大型综合医院AH医院进行数据收集,先后获取428条数据,去除缺失信息等无效数据,最终得到有效数据300条,我们将该数据命名为AH肿瘤数据(AH Cancer Data Set)。该数据集包括10个特征属性,分别为:ID,Age,Location,Node,Idensity,Clarity,Size,Regulation,Bordersmoothness,Nipple,Familyhistory和Class。第一个属性为案例编号。最后一个为分类变量属性,该属性描述了乳腺癌严重性的基本状况,即良性(0)还是恶性(1)。中间的10个属性为特征属性。10个特征数据主要来自临床初步检查和常规检查,为自变量。Class为因变量,即分类输出。该数据集中的164(54.67%)为良性肿瘤数据,136(45.33%)为恶性肿瘤数据。我们利用这些数据进行乳腺癌案例库的初步组织,建立了实验数据的案例库。肿瘤医生可以通过案例匹配发现最相似的若干案例,从而获取知识和为进一步的检查和治疗决定提供支持,如是否有必要通过针刺细胞活检(Biopsy)或者Mammography检查以最终确诊肿块的恶性和良性。这样,就有助于在不错失恶性病例的情况下一定程度上减少一些不必要的良性肿瘤被细胞穿刺等检查情况的发生。

3.2 实验工具开发

为了实验需要,我们开发了相应的程序软件。我们开发的第一个实验程序软件称之为BCCBRsys(Breast Cancer CBR Program),该系统可以认为是乳腺癌诊断决策支持系统——DSS-BCCBR(Decision Support System for Breast Cancer Diagnosis Based on CBR)的初始实验版本。实验中,历史参考案例和测试案例分别存放在不同的文本文件中。BC-CBRsys的数据存储需要遵循标准的格式。历史参考案例的格式如下:

其中,第一列是各个特征属性的权重值。第二列表示特征属性的数值类型,其中1表示属性是连续型的,0表示属性是符号型的。再往下面的数据即为参考案例数据,其中第一列为案例ID,案例数据的行之间通过逗号分割。与历史案例数据文件不同的是,测试数据文件里没有前面两行的权重值设定和特征属性类型设定,只有测试数据。

使用Visual C++作为开发工具,我们将前文提出的案例检索算法融合到了BC-CBRsys系统并实现了该系统。我们可以在输入区域通过“Open history file”和“Open new case file”按钮分别载入历史参考数据和测试数据数据。当测试完成后,案例匹配的结果,包括准确性、特异性和敏感性等统计量可以显示在输出区域。为比较需要,我们也用Visual C++实现了另一融合传统案例检索算法的程序——KNNCBRsys。

4 实验及结果

4.1 两种不同方法下的权重获取

(1)专家评价下的权重获取

固定权重下的案例检索,默认所有的属性权重都取1。因此,我们只需要获取专家评价法和遗传算法这两种方法下的属性权重。专家评价法我们具体选择的是较为常见的德尔菲法。根据德尔菲法的思想和实施指南,我们设计了权重打分表,并邀请了8个肿瘤专家对所有的项目进行权重打分。8个肿瘤专家,其中两个来自于某医科院校的附属医院(简称UH医院),另外六位来自于AH医院。经过三轮的打分,最终得到的各个属性的权重值如表1所示。该表也同时包含了各个属性专家打分的和和均值。

需要注意的是,不能通过简单的计算均值的方法获取各个属性的权重并直接使用。我们需要首先验证来自各个不同专家打分的一致性,即进行一致性检验。Kendall's和谐系数检验通常被作为执行这项任务。它是非参数检验的一种。作为一个非参统计量,它是费里德曼测试统计量的标准样式,可以被用于评价不同评估人之间的一致性。Kendall's W的值在0和1之间,其中0表示完全没有一致性(No Agreement),1表示具有完全的一致性(Complete Agreement)。即如果统计量W为1则所有肿瘤医生的意见是完全一致的。假如W等于0,则表示所有的医生之间没有总体的一致性趋势,他们的反应可以被看做是很随意的。处于0和1中间的W值各种反应之间的或多或少的一致性。根据表1的数据,测试的结果如表2(Mean Ranks)所示和表3(Kendall's W)所示。

表1 德尔菲法下的专家打分(AH数据)

表2 秩(Ranks)

如表4所示,肯德尔和谐系数为0.786,表示各个肿瘤医生之间具有很好的一致性。因此,可以求得各个属性的特征权重值为:

W=(0.0521,0.0521,0.1391,0.1130,0.1184,0.0587,0.1163,0.1228,0.1369,0.0902)

以上这组权重值可以被用于后续的实验中。

表3 测试统计量(Test Statistics)

(2)遗传算法下的权重获取

如前文所述,GAs基于自然选择和遗传理论,是通过优胜劣汰的理论和染色体信息交流相结合获取最优值的一个高效算法。GAs模拟生物进化过程,把问题的可能答案作为染色体并编码成串。然后如继承遗传学为基础的操作,交叉和各种用于这些串。染色体是由适应度函数评估,只有优胜劣汰的染色体才能生存下去。最后通过这种方式获取最优值。

本研究中,GAs用于计算可能导致乳腺癌的各个影响因子的权重。为此,边界变量定义为[0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1],因为有10个特征属性的权重需要获取。实验中初始种群由50个个体组成,进化500代。设置种群数量与测试集中的记录数相同。算法运行前对所有数据进行了标准化。通过计算验证数据和测试数据之间的相似性,验证集中最相似的案例将被获取。下一步计算整个测试集的搜索的准确性。如果搜索精度不能满足用户的要求,将用GA产生更好的权重,方法为:将当前权重作为繁衍的候选并计算它们的适应度,然后用轮盘取样通过选择交叉和变异操作选择权重。GAs将继续执行直到搜索精度满足要求或执行次数超过500为止。GAs中适应度最大的权重即为所求的解。

为测试该发现规则的质量,AH肿瘤数据集被随机地分为两个部分,三分之二的记录作为训练集,三分之一的记录作为测试集。文献中一般通过以下方式完成这部分:属于每个类(类的相对频率)实例的比例在训练集和测试集中保持相同。由于我们的算法的当前版本无法处理缺失值,为了达到实现目的,数据集中包含缺失值的记录被简单地移除了。

为获取权重,我们实现了一个遗传算法的MATLAB程序。随机选择的75条记录,占总体AH肿瘤数据的25%作为训练数据去确定的权重。其中,有41个良性乳腺癌病例,其他34条数据是恶性的。在训练数据中,有25条数据(14个良性,加上11个恶性)被用作试验数据,其他50条数据的作为历史数据。最初30解决方案随机生成作为初始种群。经过一系列的选择,交叉和变异操作,该算法在达到固定的代终止。拥有最大的匹配值的权重值将被选作最好的结果。在我们当前的研究中,进化的代数设定为500。MATLab程序的运行结果为:

Max Fit=0.9200,FitPos=249;

the Best Weight=(0.0003,0.0001,0.1637,0.2105,0.0000,0.0209,0.0600,0.2907,0.2148,0.0389)

4.2 案例检索实验

本研究完成了三个不同的实验。第一个实验用于测试带固定权重的传统KNN的性能。第二个是测试专家评价权重下的KNN的性能。最后一个是测试我们提出的集成GA和条件概率的CRMGACP算法。我们在AH数据集(AH Cancer Dataset)上进行了比较性实验。首先,利用AH数据集,我们测试的以上三种不同方法的准确性,灵敏度和特异性。在这个实验中,我们总共使用了225条数据。其中75条(良性41例和恶性34例)被随机选择作为测试集,其他150条(82条良性和68条恶性)作为参考数据集。测试数据和参考数据分别占33.33%和66.67%。对于实验结果的评价,我们使用准确性(accuracy)、敏感性、特异性、F值等统计量,其中F值可以较好地反映算法的综合性能,是准确率和召回率的调和平均数。

我们用VC++实现了一个名为BC-CBRsys的程序用于实验,它集成了我们提出的几种案例推理方法。基于相同的数据集(AH数据),我们完成了三种不同的方法测试,有关实验结果如表4所示。其中,KNN(const.w)表示固定权重下的KNN,KNN(expert.W)表示专家评价权重下的KNN。CRMGACP表示遗传算法、条件概率融合于案例推理中的知识发现方法,算法的性能是由不准确性、灵敏度、特异性、F值等统计量综合评价。F值本身也是一个统计量,用来衡量有关敏感性和特异性的算法整体性能。

表4显示,CRMGACP在统计的准确性,灵敏度,精密度和F值上都具有最佳性能。在准确性方面,CRMGACP最好(93.33%),KNN(expert.W)和KNN(const.w)相同(80.00%)。在敏感性方面,没有方法超过90%,但KNN(expert.W)和KNN((const.w)尤其差,甚至低于60%。CRM GACP灵敏度不是很高,但仍然可以接受的。在特异性上,KNN(const.w)表现最好,达到100.00%。KNN(expert.W)和CRMGACP都为97.56%,稍逊于KNN(const.w)但仍然很高。从F值这个全面衡量敏感度和特异度的统计量来看,CRMGACP(F值=0.9230)排名第一,KNN(expert.W)(F值=0.7272)位于第二,KNN(const.w)(F值= 0.7170)最差。总的来说,与其他两个常用的CBR方法相比,CRMGACP在案例检索上有显著的优势。这个实验表明,由于集成GA和条件概率,CBR的检索性能得到显着改善。

4.3 与其他分类方法的比较试验

我们对前文提出的方法与人工神经网络(neural networks)、贝叶斯网(naive Bayes)这两种常用的分类方法的性能进行了比较实验。在先前研究中,人们提出了许多检索方法用于医学分类与决策,在癌症早期检测、诊断和预测等问题上也有相应的成果[19-22]。神经网络就是其中重要方法之一[23]。Zhang Zhen,Zhang Hong和Bast Jr[24]提出了用于乳腺癌诊断的集成分类器,该分类器可以产生用于从良性病例中区分恶心病例的单值诊断索引。Tan,Quek等[25]提出辅助学习的模糊神经网络,并用于卵巢癌正负样本之间诊断。Chen Yuehui,Wang Yan和Yang Bo[26]研究了用于乳腺癌检测的演化层次型RBF神经网络。决策树是另一种常用的分类决策方法。Cruz-Ramirez,Acosta-Mesa,Carrillo-Calvet等[27]讲决策树和贝叶斯网络用于乳腺癌细胞诊断中组内观察者变异的发现。医疗分类决策中另一个常见方法是贝叶斯网络。Antal和Verrelst[28]研究用于卵巢癌诊断的贝叶斯网络。在统计学方面,逻辑回归也常常被用于医学的分类决策中[29]。

为了比较需要,本文还完成了检验上述方法性能的实验。我们使用的实验工具Weka3.6.2,分别选择Naive Bayes,Logistics,RBF Network和Simple Cart来测试相同的测试集和参考集[30]。这些方法的实验数据被用于与CBR方法的比较。表5显示CRMGACP的测试结果比其他方法具有更好的性能。其次是朴素贝叶斯(Naive Bayes)。总的来说,CRMGACP在对比试验中展示出更为显著的优势。因此,它是一个可以为临床诊断决策提供支持的具有前景的工具。

表4 不同检索算法的性能对照

表5 CBR与其他常用检索方法的性能对照

5 讨论

CRMGACP在诊疗决策中具有显著的优势:(1)知识获取的准确度高。这一点前文的实验已经充分验证。(2)易于使用性[31]。考虑到IT技术的易用性,与其他基于知识的方法相比,CBR更易被人们接受和使用。在我们的研究中,知识库是基于历史的电子健康记录,很容易为医院获得。CBR的推理模拟人类思维的方式,也是的医生很容易使用和操作CBR系统。(3)较好的有用性。相对与那些仅提供简单结论的知识挖掘方法,CBR可以为医生决策提供更充足的信息支持。医生可以获得一个或多个匹配案例的完整诊疗记录,尤其是一些关键点的决策信息[32-33]。一般来说,这些案例与新问题都是高度匹配的。根据我们在AH医院的实际研究,这些匹配案例包含大量宝贵的信息,不仅包括十个特征属性和分类(诊断结果),而且包括诊断过程、主要会诊和治疗选择的过程、治疗效果、治疗后症状和体征、建议,甚至护理建议。(4)有望进一步提高性能。考虑CBR的推理能力对案例库样本量的较强依耐性,随着用于实验的案例库样本数量的增加,我们提出的方法的性能有望得到进一步提高。

6 结语

本文研究了非连续性属性为主体的多属性决策案例中的知识挖掘方法。将条件概率和GAs融合技术整合到案例推理方法之中形成了CRMGACP算法,该算法主要包括基于GAs的权重获取算法和融合条件概率的改进相似度算法。该方法可以被看出KNN法的延伸。本研究是以乳腺癌诊疗决策数据进行的实验,数据量不大,敏感度、准确性离实际应用的要求也还有一定距离。

关于本研究,有几个可能的建议性方向,提出来供参考。一是海量数据下CRMGACP性能尤其是检索效率的研究。随着时间的推移,医院里越来越多的医院诊疗案例将被收集,案例数据量将大幅上升,因此基于大规模数据进行进一步的实验是可行的。二是融合自然语言处理和其他智能技术进一步改进检索算法,以适应在临床文本形式下的案例检索。在我们的算法中,已不需要对连续属性进行强制离散化,但一般用文字书写的医院诊疗案例下,仍然需要做一些结构化和预处理工作。建议今后的研究融入自然语言处理和其他智能技术,进一步提升复杂问题和数据下案例推理的知识获取能力。三是基于协同案例推理(Collaborative Case-Based Reasoning,CCBR)的多属性决策方法的研究。云计算技术的兴起,为跨区域、跨医院、多案例库的整合和多案例协同知识挖掘提供了新的机遇和思路。CCBR基于跨组织多的案例库,有利于各个医院的知识和资源共享和提高知识获取和决策的质量[34]。CCBR基于分散的海量案例库资源,案例属性庞杂、差异性巨大,和传统的CBR相比,不仅面临着多模态信息融合、案例标准化、不确定信息处理、多案例集结以及海量案例的快速存储和动态知识获取等一系列信息处理问题,还需要考虑多组织案例资源共享机制、多主体多系统协同机制的建立以及不同层面多协同体间协同性优化等一系列管理问题。上述问题的研究和解决将有利于进一步延展传统CBR研究领域,为医院决策和医疗信息资源管理与利用提供新的思路和手段。

虽然我们目前研究的主要目的仅仅是寻求一个含多离散属性案例匹配问题下的有效知识发现方法,并不是研究该方法是否可以普遍地应用于医院体系。但仍然可以预期,CBR系统可以被越来越多的医生使用。BC-CBRsys,即DSS-BCCBR系统的原型在AH医院得到了局部试用,受到了欢迎和认可。未来,随着系统性能的进一步改善,界面设计更友好、操作更方便,案例数据更丰富,BC-CBRsys有望拓展到更多的医疗部门甚至其他医院系统。

[1]Ayer T,Chhatwal J,Alagoz O,et al.Informatics in radiology:Comparison of logistic regression and artificial neural network models in breast cancer risk estimation[J].Radio Graphics,2010,30(1):13-22.

[2]Hung M S,Shanker M,Hu M Y.Estimating breast cancer risks using neural networks[J].Journal of the Operational Research Society,2002,53(2):222-231.

[3]Lieber J,Bresson B.Case-based reasoning for breast cancer treatment decision helping[C].Blanzieri E,Portinale L.Advances in Case-Based Reasoning-Proceedings of the fifth European Workshop on Case-Based Reasoning(EWCBR-2k),Berlin:Springer,2000.

[4]Floyd Jr C E,Lo J Y,Tourassi G D.Case-based reasoning computer algorithm that uses mammographicfindings for breast biopsy decisions[J].American Iournal of Roentgenol,2000,175(5):1347-1352

[5]Bilska A O,Floyd Jr C E.Investigating different similarity measures for a case-based reasoning classifier to predict breast cancer[J].Imaging,2001,4322:1862-1866.

[3]赵卫东,盛昭瀚.基于案例推理的决策问题求解研究[J].管理科学学报,2000,3(4):29-36.

[4]梁昌勇,顾东晓.面向不确定多属性决策问题的范例检索算法研究[J].中国管理科学,2008,17(1):131-137.

[5]路云,吴应宇,达庆利.基于案例推理技术的企业经营决策支持模型设计术[J].中国管理科学,2005,13(2):81 -87.

[6]Gu Dongxiao,Liang Changyong,Li Xingguo,et al.Intelligent technique for knowledge reuse of dental medical records based on case-based reasoning[J].Journal of medical systems,2010,34(2):213-222.

[7]McCane B,Albert M.Distance functions for categorical and mixed variables[J].Pattern Recognition Letters,2008,29(7):986-993.

[8]Stanfill C,Waltz D L.Toward memory-based reasoning[J].Communication of the ACM,1986,29(12):1213 -1228.

[9]Wilson D,Martinez T.Improved heterogeneous distance functions[J].Journel of Artificial Intelligence Research,1997,6:1-34.

[10]Gower J C.A general coefficient of similarity and some of its properties[J].Biometrics,1971,27:857-874.

[11]Greene D,Freyne J,Smyth B.Padraig cunningham:An analysis of research themes in the CBR conference literature.ECCBR,2008,5239:18-43.

[12]Renauda J,Levratb E,Fonteixc C.Weights determination of OWA operators by parametric identification[J].Mathematics and Computers in Simulation,2008,77:499-511

[13]Zhang Lu,Coenen F,Leng P.Formalising optimal feature weight setting in case-based diagnosis as linear programming problems[J].Knowledge-Based Systems,2002,15(7):391-398.

[14]Park C S,Han I.A case-based reasoning with the feature weights derived by analytic hierarchy process for bankruptcy prediction[J].Expert Systems with Applications,2002,23(3):255-264.

[15]Dogan S Z,Arditi D,Gnaydin H M.Using decision trees for determining attribute weights in a case-based model of early cost prediction[J].Journal of Construction Engineering and Management,2008,134(2):146-152.

[16]Fidelis M V,Lopes H S,Freitas A A.Discovering comprehensible classification rules with a genetic algorithm[C].Proceeding of the 2000 Congress on Evolutionary Computation,La Jolla,July 16-19,2000.

[17]Goldberg D E.Genetic algorithms in search,optimization and machine learning[J].Machine Learning,1988,3(2-3):95-99.

[18]Cunningham P.A taxonomy of similarity mechanisms for case-based reasoning[J].IEEE Transactions on Knowledge and Data Engineering,2008,21(11):1532 -1543.

[19]West D,Mangiameli P,Rampal R,et al.Ensemble strategies for a medical diagnosis previous termdecisionnext term support system:A breast previous term cancer next term diagnosis application[J].Europeon Journal of Operatinal Research,2005,162(2):532-551.

[20]Lee S.Using data envelopment analysis and decision trees for efficiency analysis and recommendation of B2C controls[J].Decision Support Systems,2010,49(4):486-497.

[21]Salchenberger L M,Cinar E M,Lash N A.Neural networks:A new tool for predicting thrift failures[J]. Decision Sciences,1992,23(4):899-916.

[22]Karabatak M,Cevdet Ince M.An expert system for detection of breast cancer based on association rules and neural network[J].Expert Systems with Applications,2009,36(2):3465-3469.

[23]Sexton R S,Dorsey R E.Reliable classification using neural networks:A genetic algorithm and back propagation comparison[J].Decision Support Systems,2000,30(1):11-22.

[24]Zhang Zhen,Zhang Hong,Bast Jr R C.An application of artificial neural networks in ovarian cancer early detection[C].Proceedings of the IEEE-INNS-ENNS International Joint Conference on Neural Networks,Como,July 24-27,2000.

[25]Tan T Z,Quek C,See Ng G,et al.Ovarian cancer diagnosis with complementary learning fuzzy neural network[J].Artificial Intelligence in Medicine,2008,43(3):207-222.

[26]Chen Yuehui,Wang Yan,Yang Bo.Evolving hierarchical RBF neural networks for breast cancer detection[J].ICONIP,2006,(3):137-144.

[27]Cruz-Ramirez N,Acosta-Mesa H G,Carrillo-Calvet H,et al.Discovering interobserver variability in the cytodiagnosis of breast cancer using decision trees and Bayesian networks[J].Applied Soft Computing,2009,9(4):1331-1342.

[28]Antal P,Verrelst H,Timmerman D,et al.Bayesian networks in ovarian cancer diagnosis:Potentials and limitations[C].Proceedings of the 13th IEEE Symposium on Computer-Based Medical Systems(CBMS'00),Houston,June 23-24,2000.

[29]Chang C L,Hsu Mingyuan.The study that applies artificial intelligence and logistic regression for assistance in differential diagnostic of pancreatic cancer[J].Expert Systems with Applications,2009,36(7):10663-10672.

[30]Witten I H,Frank E.Data mining:Practical machine learning tools and techniques[M].Morgan Kaufmann:Elsevier,2005.

[31]Venkatesh V,Speier C,Morris M G.User acceptance enablers in individual decision making about technology:Toward an integrated model[J].Decision Sciences,2002,33(2):297-316.

[32]Wixom B H,Todd P A.A theoretical integration of user satisfaction and technology acceptance[J].Information Systems Research,2005,16(1):85-102.

[33]Venkatesh V,Morris M G.Why don't men ever stop to ask for directions?Gender,social influence,and their role in technology acceptance and usage behavior[J].MIS Quarterly,2000,24(1):115-139.

[34]陈浪涛,张成洪,张诚.协同商务环境下基于案例推理机制研究[J].复旦学报(自然科学版),2005,44(6):1009-1015.

A Decision Knowledge Discovery Method for Multi-attribute Cases with Non-continuous Features

LIANG Chang-yong1,GU Dong-xiao1,3,CHENG Wen-juan1,YANG Chang-hui1,4,GU Zuo-zuo2
(1.School of Management at Hefei University of Technology,Hefei 230009,Chian;2.School of Arts and Media,Anhui University,Hefei 230011,China;3.School of Information Management at Nanjing University,Nanjing 210093,China;4.Anhui Provincial Industrial Transfer and Innovation Development Key Research Institute of Humanities Social Science,Hefei 230009,China)

The information with non-continuous features is ubiquitous in diagnosis and treatment decision making cases.The knowledge acquisition of the cases with this kind of feature has always been a key and bottleneck in multi-attribute case decision making.In this paper,conditional probability and GAs are integrated into case-based reasoning technology to develop an extension method of traditional KNN——CRMGACP algorithm,which includes a GAs-based weight determination method and an improved similarity algorithm integrating the conditional probability.Collecting data from AH Hospital,which is one of largescale hospitals in Anhui province,Cancer CBRSys is developed as the experimental tool for tests.Experimental study is competed by comparing the performance amongst four different case-based reasoning methods.The results show that CRMGACP has the best performance and shows significant advantage in various statistics.In general,CRM-GACP solves the problem of knowledge discovery from non-continuous cases and is hopeful to be a powerful decision-making tool in the research area of clinical decision making.

complex multi-attribute decision making;public healch mangement;knowledge discovery;discrete variable;case-based reasoning

C931.6

:A

1003-207(2014)04-0083-09

2012-06-30;

2013-05-07

国家自然科学基金资助项目(71331002,71301040,71271072,71171072,51274078);中国博士后科学基金面上项目(2013M541651);安徽省社会科学重点研究基地重点项目(SK2013A148,2013AJRW0131);合肥工业大学青年教师创新项目(2013HGQC0026)

梁昌勇(1965-),男(汉族),安徽肥西人,合肥工业大学管理学院教授,博士生导师,研究方向:管理信息系统、智能决策方法、行为决策等.

猜你喜欢
遗传算法权重决策
权重望寡:如何化解低地位领导的补偿性辱虐管理行为?*
基于改进遗传算法的航空集装箱装载问题研究
基于遗传算法的高精度事故重建与损伤分析
权重常思“浮名轻”
基于遗传算法的智能交通灯控制研究
决策大数据
决策大数据
为党督政勤履职 代民行权重担当
诸葛亮隆中决策
权重涨个股跌 持有白马蓝筹