KNN 分类器在新疆维吾尔药材图像分类中的应用

2016-01-07 08:59木拉提·哈米提,张岁霞,严传波
新疆医科大学学报 2015年7期
关键词:图像分类灰度

KNN分类器在新疆维吾尔药材图像分类中的应用

木拉提·哈米提1, 张岁霞1,严传波1, 阿布都艾尼·库吐鲁克1, 孙静1,

艾赛提·买提木沙2, 员伟康1, 杨芳1, 伊利扎提·阿力甫1, 孔喜梅1

(新疆医科大学1医学工程技术学院;2公共卫生学院, 乌鲁木齐830011)

摘要:目的探讨K近邻结点算法(k-Nearest Neighbor algorithm,KNN)分类器在新疆维吾尔药材图像分类中的应用。方法采用KNN分类器对新疆维吾尔药材图像的灰度-梯度共生矩阵特征和Tamura纹理特征进行判别分类。选取训练样本为80、100、120的3个训练集,训练并得到最优K值,并分别在测试样本为120、100、80的3个测试集中验证结果。结果K值越小(3~13),KNN分类器对叶类图像分类准确率越高;K值越大(63~71),KNN分类器对花类图像分类准确率越高。当K值取3~13时,120、100、80的3个测试集中叶类图像的平均分类准确率分别为94.72%、89.45%、82.61%;K值取63~79时,120、100、80的3个测试集中花类图像的平均分类准确率分别为74.71%、72.79%、76.55%。结论KNN分类器可为新疆维吾尔药材图像类型判断提供一定的依据,为新疆维吾尔药材图像检索系统的检索精度的提升奠定了基础。

关键词:KNN分类器; 灰度-共生矩阵; Tamura纹理特征; 图像分类

中图分类号:R318.04文献标识码:A

doi:10.3969/j.issn.1009-5551.2015.07.001

[收稿日期:2015-04-19]

基金项目:国家自然科学基金(81160182,81460281,61201125); 江西民族传统药协同创新项目(JXXT201401001-2); 留学人员科技活动择优资助项目(2013-277)

作者简介:严传波(1970-),男,本科,副教授,研究方向:数据库应用、图像处理。

Classification of Xinjiang Uygur medicine image based on KNN Classifier

Hamit Murat1, ZHANG Suixia1,YAN Chuanbo1, Abdugheni Kutluk1, SUN Jing1, Asat Matmusa2,

YUAN Weikang1, YANG Fang1, Elzat Alip1, KONG Ximei1

(1CollegeofMedicalEngineeringTechnology;2CollegeofPublicHealth,

XinjiangMedicalUniversity,Urumqi830011,China)

Abstract:ObjectiveTo investigate the classification capability dealing with Xinjiang Uygur medicine by means of k-Nearest Neighbor algorithm (KNN)classifier. MethodsMatlab was used to preprocess and extract features based on gray gradient co-occurrence matrix and Tamura texture features. KNN classifier was used to classify image features. We selected training samples of 80, 100, 120 as train sets, trained and got optimal k value, then tested results in three test samples of 120, 100, 80. ResultsThe smaller the k value (3-13) was the higher accuracy KNN classifier on the leaf image classification. The average accuracy rate in three test samples reached 94.72%, 89.45% and 82.61% respectively. The larger k value (63-71) was the higher accuracy KNN classifier on the flower image classification. The average accuracy rate in three test samples reached 74.71%, 72.79% and 76.55% respectively. ConclusionThe data show that when adopting mixed texture combined with the KNN classifier, the classification ability can be improved and provide a certain basis for judgment of Xinjiang Uygur medicine types. This laid the foundation for improvement of accuracy of Xinjiang Uygur medicine image retrieval system.

Key words: KNN Classifier; gray gradient co-occurrence matrix; tamura texture features; image classification

维吾尔医药是维吾尔族人民在长期的医疗实践中,通过不断积累和总结防病治病经验,集阿拉伯医药、古希腊医药之长,在中医学的影响下,逐渐形成的有系统的医学理论、完整的医疗方法、丰富的药材资源及单验方制剂的医学体系[1]。据初步统计,维吾尔药材现有1 100多种,其中植物药1 000多种,矿物药80多种,动物药50多种;国产的有1 000多种,新疆产的有100多种,进口药60多种。K近邻结点算法(KNN)分类是一种简单、有效、非参数的方法,现已广泛应用于文本分类、模式识别、图像及空间分类等领域[2]。本研究将KNN分类算法应用于新疆维吾尔药材的分类中,根据新疆维吾尔药材图像在纹理和灰度上的差异,使用灰度-梯度共生矩阵法和Tamura纹理特征法提取混合纹理特征,并且通过KNN分类器对特征值进行判别分类,通过调节K值来提高不同类型图像的分类准确率,旨在探讨KNN分类器在新疆维吾尔药材图像分类中的应用。

1新疆维吾尔药材图像预处理

采用图像预处理模块,首先对采集到的新疆维吾尔药材图片进行灰度归一,将RGB模式的图片转换为GRAY模式,再利用中值滤波和直方图均衡化对食管癌X线医学图像进行去噪和增强,从而得到更清晰的灰度图像。选取花类图像亚麻和叶类图像银杏图像预处理结果作为示例,其图像预处理结果见图1、2,其中a为尺寸归一化后的图像,将获取的大小不等的图像规定为200 400像素;b为经过灰度化后的维吾尔药材图像,将图像从RGB模式转换到GRAY模式[3];c为中值滤波去噪后的图像,在不减小图像对比度的情况下减小异常值的影响;d为经过有限对比度自适应直方图均衡化后的药材图像,抑制图像的某些特征而使另一些特征得到增强[3]。

a           b           c           d

图1新疆维吾尔药材亚麻图像预处理结果

a           b           c           d

图2新疆维吾尔药材银杏图像预处理结果

2混合纹理特征提取

2.1基于灰度-梯度共生矩阵的特征提取灰度-梯度共生矩阵纹理分析方法是用灰度和梯度的综合信息提取纹理特征,其考虑像素灰度与边缘梯度的联合统计分布。要获得图像的梯度信息,就必须用一种微分算子来与图像进行卷积运算,检测出图像领域灰度相差较大的部分,因而产生了基于灰度-梯度共生矩阵的图像纹理特征提取的方法[4-6]。灰度-梯度共生矩阵能够使图像内各像素灰度与梯度的分布规律得到很清楚地描述,同时也使图像中各像素点与其领域像素点之间的空间关系得到很好地反映,因此它能很好地描绘图像的纹理。

本研究提取新疆维吾尔药材图像的灰度-梯度共生矩阵:小梯度优势(T1)、大梯度优(T2)、灰度的不均匀性分布(T3)、梯度的不均匀性分布(T4)、能量(T5)、灰度平均(T6)、梯度平均(T7)、灰度均方差(T8)、梯度均方差(T9)、相关(T10)、灰度熵(T11)、梯度熵(T12)、混合熵(T13)、惯性(T14)、逆差距(T15)共15个特征值。

2.2基于Tamura纹理的特征提取在人类对纹理的视觉感知的研究基础上,Tamura等于1978年提出了一种纹理特征的表达[7-8],Tamura纹理特征的6个分量对应于心理学角度上纹理特征的6种属性,分别是粗糙度(coarseness)、方向度(contrast)、方向性(directionality)、线性度(linelikeness)、规整度(regularity)、粗略度(roughness)。Tamura纹理特征是纹理分析中经典算法,文献[9-10]详细介绍了该算法的原理。本研究利用MATLAB对Tamura纹理特征进行编程,并应用于新疆维吾尔药材图像,提取维药图像的粗糙度(H1)、对比度(H2)、方向度(H3)、线性度(H4)、规整度(H5)5个分量作为特征向量。

2.3基于混合纹理特征的提取结果本研究对维吾尔药材图像进行分类,随机抽取新疆维吾尔药材图像200张,其中花类药材图像100张,叶类药材图像100张。对新疆维吾尔药材图像的花类图像和叶类图像,提取图像基于灰度-梯度共生矩阵和Tamura纹理的混合纹理特征:T1、T2、T3、T4、T5、T6、T7、T8、T9、T10、T11、T12、T13、T14、T15、H1、H2、H3、H4、H5共20个特征值,组成了新疆维吾尔药材图像的的特征向量。新疆维吾尔药材花类图像和叶类图像的混合纹理特征提取结果见表1。

表1 新疆维吾尔药材图像花类和叶类图像混合纹理特征

3KNN分类算法

近邻法(Nearest Neighbor algorithm,NN)是模式识别非参数法中最重要的方法之一,NN的一个很大特点是将各类中全部样本点都作为“代表点”。1NN是将所有训练样本都作为代表点,因此在分类时需要计算待识别样本到所有训练样本的距离,结果就是与最近的训练样本所属于的类别,KNN是1NN的推广,即分类时选出的一个最近邻,看这个近邻中的多数属于哪一类,就把分到哪一类[11]。图3为KNN算法原理展示图,图3a为KNN算法将总样本分为两部分,一部分作为训练集,其余部分作为测试集[12-13]。图3b为KNN算法分类示例:图中黑色圆点为未知的数据点,白色圆点为已知类别的数据集,基于欧几里得定理,利用降序排序,删选出离黑色圆点(未知数据点)最近的3个白色圆点(已知类型的数据点)。示例中为4个点,此时未知的数据点被分为a类。

图3 KNN算法原理图

3.1KNN分类器训练集分类过程本研究利用MATLAB R2013a 对KNN分类器进行编辑。提取新疆维吾尔药材图像的梯度-灰度共生矩阵和Tamura纹理的混合纹理特征(共20特征向量)。将KNN分类器应用于新疆维吾尔药材图像的分类,随机抽取新疆维吾尔药材图像200张,其中花类药材图像100张,叶类药材图像100张。将样本按4∶6、5∶5和6∶4选取训练集和测试集。选3个不同大小的训练集80、100、120,分别作为训练数据集,余下的样本120、100、80分别作为3个测试集数据。在训练过程中,当取不同K值时,得到不同分类准确率,根据分类准确率来确定最优K值。

第1个训练集为80张药材图片,其中花类图像训练样本为40张,叶类图像训练样本为40张。图4为在此训练集下,K取3~71时,花类和叶类图像分类准确率的折线图。根据折线图的变化趋势,将花类和叶类图像分类准确率,分为几个区间,并计算出该区间内花类图像和叶类图像的平均、最大、最小分类准确率。由图5可以得到:当训练集为80时,根据花类和叶类图像的分类准确率对比可以得到当K值越小(3~19),叶类图像分类准确率越高,平均分类准确率达78.93%。K值越大(63~71)时,花类图像分类准确率越高,平均分类准确率达75.35%。

图4 训练集为80时的分类准确率

第2个训练集为100张草药图片,其中花类图像训练样本为50张,叶类图像训练样本为50张。图6为在此训练集下,K取3~71时,花类和叶类图像分类准确率的折线图。根据折线图变化趋势,将花类和叶类图像分类准确率,分为几个区间,并计算出该区间内花类图像和叶类图像的平均、最大、最小分类准确率。由图7可以得到:当训练集为100时,根据花类和叶类图像的分类准确率对比可以得到当K值越小(3~13),叶类图像分类准确率越高,平均分类准确率达84.90%。K值越大(61~71)时,花类图像分类准确率越高,平均分类准确率达73.68%。

a

b

图6 训练集为100时的分类准确率

第3个训练集为120张草药图片,其中花类图像训练样本为60张,叶类图像训练样本为60张。图8为在此训练集下,K取3~71时,花类和叶类图像分类准确率的折线图。根据折线图变化趋势,将花类和叶类图像分类准确率,分为几个区间,并计算出该区间内花类图像和叶类图像的平均、最大、最小分类准确率。由图9结果可以得到:当训练集为120时,同前2个训练集,花类和叶类图像的分类准确率对比可以得到当K值越小(3~19),叶类图像分类准确率越高,平均分类准确率达95.78%。K值越大(57~71)时,花类图像分类准确率越高,平均分类准确率达82.57%。

a

b

3.2KNN分类器测试集分类结果综合样本量为80、100、120的3个训练集的训练结果(最优K值区间取交集),可以得出:当K值越小(3~13),KNN分类器对叶类图像分类准确率越高;当K值越大(63~71),KNN分类器对花类图像分类准确率越高。选取样本量为120、100、80的3个测试集分别对训练结果做验证。当K值取3~13时,120、100、80的3个测试集中叶类图像的平均分类准确率分别为94.72%、89.45%、82、61;K值取63~79时,120、100、80的3个测试集中花类图像的平均分类准确率分别为74.71%、72.79%、76.55%,结果见表2、3。

表2 K取3~13不同测试集花类图像的分类准确率/%

表3 K取63~71不同测试集叶类图像的分类准确率/%

图8 训练集为120时的分类准确率

a b

4结论

根据新疆维吾尔药材图像在纹理和灰度上的差异,使用灰度-梯度共生矩阵和Tamura纹理特征提取混合纹理特征,并且通过KNN分类器对特征值进行判别分类。由实验结果可以看出,根据待测样本图片类型,可以通过调节K值从而达到理想的分类准确率。本研究根据KNN分类器选取的3个训练集,训练结果显示:当K值越小(3~13),KNN分类器对叶类图像分类准确率越高;当K值越大(63~71),KNN分类器对花类图像分类准确率越高,同时3个测试集的测试结果也验证了该结论的正确性。在样本量为120、100、80的3个测试集测试结果中,还可以得出另一个结论:当样本量越大时,花类图像的分类准确率越高,而叶类图像分类并非如此。在后期研究中,用KNN分类器分类新疆维吾尔药材图像的过程中,将增大样本量和训练次数,来获得更精确的分类趋势。通过本研究结果可以看出,KNN分类器为新疆维吾尔药材图像类型判断提供一定的依据,为新疆维吾尔药材图像检索系统的检索精度的提升奠定了基础。

参考文献:

[1]黄秀兰,周秋兰.维吾尔医药发展现状及存在问题分析[J].中央民族大学学报:自然科学版,2007,16(3):223-228.

[2]张晓辉, 李莹, 王华勇,等. 应用特征聚合进行中文文本分类的改进的KNN算法[J].东北大学学报:自然科学版,2003, 24(3):229-232.

[3]Mir AH, Hanmandlu M, Tandon SN.Texture analysis of CT images[J].IEEE Eng Med Biol, 1995, 14(6):781-786.

[4]张逵,朱大奇.基于D.S证据理论的信息融合图像识别[J].上海海事大学学报,2012, 33(3):81-86.

[5]张弘,范九伦.灰度一梯度共生矩阵模型的加权条件熵阈值法[J].计算机工程与应用, 2010, 46(6):10-14.

[6]周德龙,申石磊,蒲小勃,等.基于灰度-梯度共生矩阵模型的最大熵阈值处理算法[J].小型微型计算机系统,2002, 23(2):135-138.

[7]张松林.基于纹理特征图像检索方法研究[D].重庆大学,2010.

[8]杨秀娟.基于纹理特征的图像检索研究[D].西安科技大学,2009.

[9]景军锋,张媛媛,李鹏飞,等.LBP和Tamura纹理特征方法融合的织物疵点分类算法[J].计算机工程与应用,2012,48(23):155-160.

[10]孙劲光,尹达,张华伟.基于颜色和纹理特征的图像检索技术研究[J].河北工业大学学报, 2008,37(6):23-30.

[11]李蓉,叶世伟,史忠植.SVM-KNN分类器一种提高SVM分类精度的新方法[J].电子学报,2002,30(5):745-748.

[12]Li GH, Fan P, Yuan L. Continuous K-Nearest neighbor processing based on speed and direction of moving objects in a road network[J].Telecommun Syst,2014 ,55(3):403-419.

[13]Ahmet A, Gong DH, Kahveci T. Network-based prediction of cancer under genetic storm[J]. Cancer Inform,2014,13(3):14-31.

(本文编辑施洋)

通信作者:木拉提·哈米提,男(维吾尔族),教授,硕士生导师,研究方向:医学图像处理及生物医学信号分析,E-mail:murat.h@163.com。

猜你喜欢
图像分类灰度
采用改进导重法的拓扑结构灰度单元过滤技术
Bp-MRI灰度直方图在鉴别移行带前列腺癌与良性前列腺增生中的应用价值
Arduino小车巡线程序的灰度阈值优化方案
基于最大加权投影求解的彩色图像灰度化对比度保留算法
基于数据挖掘的图像分类算法
基于云计算的图像分类算法
基于锚点建图的半监督分类在遥感图像中的应用
一种基于引导滤波和MNF的高光谱遥感图像分类方法
基于灰度共生矩阵纹理特征的输电导线识别
基于像素重排比对的灰度图彩色化算法研究